자격증/빅데이터분석기사
[빅데이터분석기사] 빅데이터 분석 기획 - 빅데이터의 이해 (1)
glorypang
2025. 3. 29. 19:33
728x90
반응형
SMALL
빅데이터 개요 및 활용
1. 빅데이터의 개요 및 출현 배경
- 데이터 vs 정보
- 데이터: 있는 그대로의 사실 (예: 주문 수량)
- 정보: 데이터를 가공해 의미를 부여한 것 (예: 베스트셀러)
- 빅데이터 출현 배경
- 인터넷 확산, 스마트폰 보급
- 클라우드 컴퓨팅 기술과 저장매체 가격 하락
- 하둡 기반 분산 컴퓨팅의 등장
- 비정형 데이터의 증가 (예: SNS, 이미지, 동영상 등)
- 빅데이터 활용 3대 요소:
⮕ 인력, 자원(데이터), 기술 → ‘인자기’
2. 빅데이터의 3V + 확장된 5V
- 3V (가트너 기준)
- Volume(규모): 데이터의 양 (예: 구글 번역 서비스)
- Variety(다양성): 정형/비정형 데이터 등 다양한 유형
- Velocity(속도): 생성 및 처리 속도
- 추가 2V
4) Value(가치): 분석을 통해 얻는 실질적 가치
5) Veracity(신뢰성): 데이터의 정확성과 품질
3. DIKW 피라미드
- Data(데이터): A대리점 핸드폰 100만원, B대리점 200만원
- Information(정보): A대리점이 싸다
- Knowledge(지식): A에서 사는 게 유리하다
- Wisdom(지혜): A의 다른 기기도 저렴할 것이다
4. 암묵지 vs 형식지
- 암묵지: 개인에게 내재된 지식 (경험, 직감)
- 형식지: 문서화된 지식 (교재, 매뉴얼)
- Nonaka의 지식변환 이론 (SECI 모델)
- 공통화: 암묵지 → 암묵지 (암묵지 지식을 다른 사람에게 알려줌)
- 표출화: 암묵지 → 형식지 (암묵지 지식을 메뉴얼이나 문서로 전환)
- 연결화: 형식지 → 형식지 (메뉴얼에 새로운 지식을 추가)
- 내면화: 형식지 → 암묵지 (만들어진 교재, 메뉴얼에서 다른 사람의 암묵지를 터득)
⮕ ‘공표연내’
5. 데이터베이스 개념 및 유형
- DB: 구조화된 데이터 집합
- 스키마: 구조/제약조건의 명세
- 인스턴스: 실제 저장된 데이터 값
- DBMS: DB를 관리하는 소프트웨어
- SQL
- DDL: CREATE, ALTER, DROP
- DML: SELECT, INSERT 등
- 제어언어: COMMIT, ROLLBACK 등
DBMS 유형
| 유형 | 설명 | 예시 |
| 관계형 DBMS | 테이블 기반 | Oracle, MySQL, MsSQL, MARIA 등 |
| 객체지향 DBMS | 객체 개념 기반 | – |
| NoSQL DBMS | 비정형 데이터 처리 | MongoDB, Cassandra, HBASE 등 |
6. 데이터베이스의 특징 및 구성
- 특징 (공동저변)
- 공용 데이터: 여러 사용자가 다른 목적으로 데이터 공동 이용
- 통합된 데이터: 동일한 데이터 중복되어 있지 않음
- 저장된 데이터: 저장매체에 저장
- 변화되는 데이터 (무결성): 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지
- 구성요소
- 메타데이터: 데이터를 설명
- 인덱스: 탐색 속도 향상
7. 기업 활용 데이터베이스
- OLTP(Online Transaction Processing): 실시간 거래 처리 (예: 은행 트랜잭션)
- OLAP(Online Analytical Processing): 다차원 분석 (예: 피벗 테이블)
- CRM(Customer Relationship Management: 고객 데이터 분석
- SCM(Supply Chain Management): 공급망 최적화
- ERP(Enterprise Resource Planning): 자원 통합 관리
- BI(Business Intelligence): 데이터 분석 및 리포트
- BA(Business Analytics): 통계 기반 비즈니스 인사이트
- KMS (Knowledge Management System): 조직 내 지식 자산 관리
8. 빅데이터의 가치와 변화
- 가치 산정이 어려운 이유
- 누가, 언제, 어떻게 사용할지 예측 어려움
- 기존에 무의미했던 데이터가 새로운 분석법으로 가치 창출
- 빅데이터 시대의 변화 (전후양상)
- 표본조사 → 전수조사
- 사전처리 → 사후처리
- 질 → 양
- 인과관계 → 상관관계
9. 데이터 사이언스 및 역량
- 데이터 사이언스: 정형/비정형 데이터를 총체적으로 분석하는 융합 학문
- 핵심 요소 (AI비)
- Analytics (수학, 통계학 등)
- IT (프로그래밍)
- 비즈니스 분석 능력
- 데이터 사이언티스트의 역량
- Hard Skill: 이론적 기반(수학, 통계 등)
- Soft Skill: 커뮤니케이션, 창의력, 스토리텔링 등
10. 하둡과 데이터 단위
1. 하둡(Hadoop)
- 대용량 분산 데이터 처리용 오픈소스 플랫폼
2. Hadoop 생태계 내 주요 구성 도구
| 도구 | 역할 | 설명 | 비고/비교 |
| Apache Tajo | SQL 기반 분산 쿼리 엔진 | Hadoop 기반의 대규모 데이터 분석용 SQL 엔진. 빠르고 실시간 Ad-hoc 질의에 강함. | Hive보다 빠른 성능, 실시간성 우수 |
| Apache Pig | 스크립트 기반 데이터 흐름 처리 언어 | Pig Latin이라는 스크립트 언어로 데이터 흐름을 작성. MapReduce를 추상화하여 쉽게 작성 가능. | Hive는 SQL형, Pig는 스크립트형 |
| Apache Oozie | 워크플로우 스케줄러 | Hadoop 작업을 정의하고, 시간·조건에 따라 실행하는 스케줄링 툴. | ETL 자동화/배치 작업 필수 |
| Apache Spark | 인메모리 분산 처리 엔진 | 빠르고 범용성 높은 빅데이터 처리 프레임워크. Batch, Streaming, ML, Graph 처리 가능 | Hadoop MapReduce보다 최대 100배 빠름 |
| Apache Hive | SQL 기반의 데이터 웨어하우스 | SQL(HiveQL)을 통해 대용량 데이터를 처리. 기본적으로는 MapReduce 기반 | 최근엔 Tez, Spark 기반으로 확장 중 |
| Apache Flume | 데이터 수집 도구 | 로그, 이벤트 데이터를 실시간으로 수집하여 HDFS로 전송 | Kafka와 비슷한 용도지만 구조 단순 |
| Apache Sqoop | RDB ↔ Hadoop 데이터 이동 도구 | 관계형 DB와 Hadoop 간의 대용량 데이터 수·출입 | ETL 구성에 필수 |
| Apache HBase | 분산형 NoSQL DB | 실시간 읽기/쓰기 가능한 컬럼 기반 DB. HDFS 위에 구축됨 | 구조는 구글 BigTable에서 유래 |
3. 데이터 단위 순서
- KB(2^10 = 10^3) < MB(2^20 = 10^6) < GB < TB < PB < EB < ZB < YB
⮕ 외우기: ‘패지요’ (Peta-Exa-Zetta-Yotta)
11. 빅데이터 분석 조직 구성 방식
- DSCoE (Data Science Center of Excellence)
- 조직 내 분석 전문성을 갖춘 그룹
- 조직 유형 (집기분)
- 집중 구조: 독립 전담 조직 (효율적이나 중복 업무 가능성 있음)
- 기능 구조: 각 부서 내에서 자체 분석(DSCoE가 없음)
- 분산 구조: 분석 인력을 각 부서에 배치
728x90
반응형
LIST