자격증/빅데이터분석기사

[빅데이터분석기사] 빅데이터 분석 기획 - 빅데이터의 이해 (1)

glorypang 2025. 3. 29. 19:33
728x90
반응형
SMALL

빅데이터 개요 및 활용

1. 빅데이터의 개요 및 출현 배경

  • 데이터 vs 정보
    • 데이터: 있는 그대로의 사실 (예: 주문 수량)
    • 정보: 데이터를 가공해 의미를 부여한 것 (예: 베스트셀러)
  • 빅데이터 출현 배경
    • 인터넷 확산, 스마트폰 보급
    • 클라우드 컴퓨팅 기술과 저장매체 가격 하락
    • 하둡 기반 분산 컴퓨팅의 등장
    • 비정형 데이터의 증가 (예: SNS, 이미지, 동영상 등)
  • 빅데이터 활용 3대 요소:
    력, 원(데이터), 술  → ‘인자기’

2. 빅데이터의 3V + 확장된 5V

  • 3V (가트너 기준)
    1. Volume(규모): 데이터의 양 (예: 구글 번역 서비스)
    2. Variety(다양성): 정형/비정형 데이터 등 다양한 유형
    3. Velocity(속도): 생성 및 처리 속도
  • 추가 2V
    4) Value(가치): 분석을 통해 얻는 실질적 가치
    5) Veracity(신뢰성): 데이터의 정확성과 품질

3. DIKW 피라미드

  1. Data(데이터): A대리점 핸드폰 100만원, B대리점 200만원
  2. Information(정보): A대리점이 싸다
  3. Knowledge(지식): A에서 사는 게 유리하다
  4. Wisdom(지혜): A의 다른 기기도 저렴할 것이다

4. 암묵지 vs 형식지

  • 암묵지: 개인에게 내재된 지식 (경험, 직감)
  • 형식지: 문서화된 지식 (교재, 매뉴얼)
  • Nonaka의 지식변환 이론 (SECI 모델)
    1. 공통화: 암묵지 → 암묵지 (암묵지 지식을 다른 사람에게 알려줌)
    2. 출화: 암묵지 → 형식지 (암묵지 지식을 메뉴얼이나 문서로 전환)
    3. 결화: 형식지 → 형식지 (메뉴얼에 새로운 지식을 추가)
    4. 면화: 형식지 → 암묵지 (만들어진 교재, 메뉴얼에서 다른 사람의 암묵지를 터득)
      ⮕ ‘공표연내

5. 데이터베이스 개념 및 유형

  • DB: 구조화된 데이터 집합
    • 스키마: 구조/제약조건의 명세
    • 인스턴스: 실제 저장된 데이터 값
  • DBMS: DB를 관리하는 소프트웨어
  • SQL
    • DDL: CREATE, ALTER, DROP
    • DML: SELECT, INSERT 등
    • 제어언어: COMMIT, ROLLBACK 등

DBMS 유형

유형  설명  예시
관계형 DBMS 테이블 기반 Oracle, MySQL, MsSQL, MARIA 등
객체지향 DBMS 객체 개념 기반
NoSQL DBMS 비정형 데이터 처리 MongoDB, Cassandra, HBASE 등

6. 데이터베이스의 특징 및 구성

  • 특징 (공동저변)
    1. 용 데이터: 여러 사용자가 다른 목적으로 데이터 공동 이용
    2. 합된 데이터: 동일한 데이터 중복되어 있지 않음
    3. 장된 데이터: 저장매체에 저장
    4. 화되는 데이터 (무결성): 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지
  • 구성요소
    • 메타데이터: 데이터를 설명
    • 인덱스: 탐색 속도 향상

7. 기업 활용 데이터베이스

  • OLTP(Online Transaction Processing): 실시간 거래 처리 (예: 은행 트랜잭션)
  • OLAP(Online Analytical Processing): 다차원 분석 (예: 피벗 테이블)
  • CRM(Customer Relationship Management: 고객 데이터 분석
  • SCM(Supply Chain Management): 공급망 최적화
  • ERP(Enterprise Resource Planning): 자원 통합 관리
  • BI(Business Intelligence): 데이터 분석 및 리포트
  • BA(Business Analytics): 통계 기반 비즈니스 인사이트
  • KMS (Knowledge Management System): 조직 내 지식 자산 관리

8. 빅데이터의 가치와 변화

  • 가치 산정이 어려운 이유
    • 누가, 언제, 어떻게 사용할지 예측 어려움
    • 기존에 무의미했던 데이터가 새로운 분석법으로 가치 창출
  • 빅데이터 시대의 변화 (전후양상)
    1. 표본조사 → 수조사
    2. 사전처리 → 사처리
    3. 질 →
    4. 인과관계 → 관관계

9. 데이터 사이언스 및 역량

  • 데이터 사이언스: 정형/비정형 데이터를 총체적으로 분석하는 융합 학문
  • 핵심 요소 (AI비)
    1. Analytics (수학, 통계학 등)
    2. IT (프로그래밍)
    3. 비즈니스 분석 능력
  • 데이터 사이언티스트의 역량
    • Hard Skill: 이론적 기반(수학, 통계 등)
    • Soft Skill: 커뮤니케이션, 창의력, 스토리텔링 등

10. 하둡과 데이터 단위

1. 하둡(Hadoop)

  • 대용량 분산 데이터 처리용 오픈소스 플랫폼

 

2. Hadoop 생태계 내 주요 구성 도구

도구 역할 설명 비고/비교
Apache Tajo SQL 기반 분산 쿼리 엔진 Hadoop 기반의 대규모 데이터 분석용 SQL 엔진. 빠르고 실시간 Ad-hoc 질의에 강함. Hive보다 빠른 성능, 실시간성 우수
Apache Pig 스크립트 기반 데이터 흐름 처리 언어 Pig Latin이라는 스크립트 언어로 데이터 흐름을 작성. MapReduce를 추상화하여 쉽게 작성 가능. Hive는 SQL형, Pig는 스크립트형
Apache Oozie 워크플로우 스케줄러 Hadoop 작업을 정의하고, 시간·조건에 따라 실행하는 스케줄링 툴. ETL 자동화/배치 작업 필수
Apache Spark 인메모리 분산 처리 엔진 빠르고 범용성 높은 빅데이터 처리 프레임워크. Batch, Streaming, ML, Graph 처리 가능 Hadoop MapReduce보다 최대 100배 빠름
Apache Hive SQL 기반의 데이터 웨어하우스 SQL(HiveQL)을 통해 대용량 데이터를 처리. 기본적으로는 MapReduce 기반 최근엔 Tez, Spark 기반으로 확장 중
Apache Flume 데이터 수집 도구 로그, 이벤트 데이터를 실시간으로 수집하여 HDFS로 전송 Kafka와 비슷한 용도지만 구조 단순
Apache Sqoop RDB ↔ Hadoop 데이터 이동 도구 관계형 DB와 Hadoop 간의 대용량 데이터 수·출입 ETL 구성에 필수
Apache HBase 분산형 NoSQL DB 실시간 읽기/쓰기 가능한 컬럼 기반 DB. HDFS 위에 구축됨 구조는 구글 BigTable에서 유래

 

3. 데이터 단위 순서

  • KB(2^10 = 10^3) < MB(2^20 = 10^6) < GB < TB < PB < EB < ZB < YB
    ⮕ 외우기: ‘패지요’ (Peta-Exa-Zetta-Yotta)

11. 빅데이터 분석 조직 구성 방식

  • DSCoE (Data Science Center of Excellence)
    • 조직 내 분석 전문성을 갖춘 그룹
  • 조직 유형 (집기분)
    1. 집중 구조: 독립 전담 조직 (효율적이나 중복 업무 가능성 있음)
    2. 기능 구조: 각 부서 내에서 자체 분석(DSCoE가 없음)
    3. 분산 구조: 분석 인력을 각 부서에 배치

 

728x90
반응형
LIST