자격증/빅데이터분석기사

[빅데이터분석기사] 빅데이터 분석 기획 - 데이터 분석 계획

glorypang 2025. 3. 29. 20:35
728x90
반응형
SMALL

1. 분석 로드맵 설정

1.1 분석 목표 분류

방법\대상  Known  Unknown
Known 최적화 (Optimization) 통찰 (Insight)
Unknown 솔루션 (Solution) 발전 (Discovery)
  • Known-Known: 이미 알고 있는 데이터를 바탕으로 최적화 (예: 재고 최소화)
  • Known-Unknown: 데이터를 분석해 통찰 도출 (예: 고객 이탈 요인 분석)
  • Unknown-Known: 새로운 솔루션 개발 (예: 추천 시스템 설계)
  • Unknown-Unknown: 데이터로부터 완전히 새로운 패턴 발견 (예: 신약 후보 물질 탐색)

 

1.2 데이터 분석 5단계

단계 이름 핵심 내용 사용 도구
1 문제 정의
(Problem Definition)
- 분석 목적/목표 설정
- 해결할 문제 명확화
비즈니스 이해, 회의/요구사항 분석
2 데이터 수집
(Data Collection)
- 내부/외부 데이터 확보
- 크롤링, API, DB 연결 등
SQL, Python(pandas, requests), API, 웹 크롤링
3 데이터 전처리
(Data Preprocessing)
- 결측치/이상치 처리
- 형 변환, 정규화 등
pandas, NumPy, OpenRefine
4 데이터 분석 & 시각화
(Exploratory Data Analysis, Visualization)
- 통계 분석
- 시각화
- 상관관계 및 인사이트 도출
pandas, matplotlib, seaborn, Tableau, Power BI
5 결과 해석 & 보고
(Interpretation & Reporting)
- 분석 결과 해석
- 인사이트 도출 및 의사결정 지원
- 시각화된 보고서 작성
PowerPoint, Notion, Excel, Tableau, 프레젠테이션
  • 문제정의: "무엇이 문제인가?", "무엇을 예측/설명하고 싶은가?"
  • 데이터 수집: "어떤 데이터가 필요한가?", "어디서 구할 수 있는가?"
  • 데이터 전처리: "누락된 데이터는?", "이상치는?"
  • 분석 & 시각화: "데이터의 패턴은?", "어떤 변수가 중요한가?"
  • 결과 해석: "어떤 결론을 내릴 수 있는가?", "어떻게 의사결정에 반영할 수 있는가?"

 

1.3 분석 로드맵 설정 시 고려할 우선순위

  • 1. 비즈니스 가치 (Impact) 
    • 해당 분석이 의사결정에 얼마나 큰 영향을 줄 수 있는가?
    • 예: 매출 증가, 비용 절감, 고객 만족도 향상 등
  • 2. 실행 가능성 (Feasibility)
    • 필요한 데이터가 존재하는가?
    • 수집/처리 가능한 형태인가?
    • 분석 도구와 인력이 갖춰져 있는가?
  • 3. 긴급도 (Urgency)
    • 분석 결과가 즉시 필요한 상황인가?
    • 예 : 마케팅 캠페인 직전, 이슈 대응 등
  • 4. 복잡도 (Complexity)
    • 분석이 기술적으로 얼마나 어려운가?
    • 간단한 통계로 해결 가능? ML이 필요한가?

2. 분석 기획 접근법 비교

항목  과제 중심적 접근 장기적 마스터 플랜
목적 빠른 문제 해결 근본 원인 해결
목표 Speed & Test Accuracy & Deploy
유형 Quick & Win Long Term View
방식 Problem Solving Problem Definition

⮕ 단기냐, 장기냐에 따라 분석 전략이 다름


3. 의사결정 방해 요소

  • 고정관념: 선입견
  • 프레이밍 효과: 표현 방식에 따라 판단이 달라짐
    (예: "90% 성공률" vs "10% 실패율")

4. 하향식 접근법

  • 문제가 주어진 상태에서 해결 방법을 설계
  • 순서: 문제탐색 → 문제정의 → 해결방안 도출 → 타당성 검토

문제 탐색 시 고려사항

  1. 솔루션보다 가치에 집중
  2. 비즈니스 관점 (업무, 제품, 고객, 규제와 감사, 지원인프라)
    ⮕ ‘지원인프라 업무 중에 고객이 제품을 규제와 감사했다
  3. 외부 환경 고려
    • 거시적 관점: STEEP(사회, 기술, 경제, 환경, 정치)
    • 경쟁자 관점: 대체재, 경쟁자, 신규 진입자
    • 시장 니즈 관점: 고객, 채널, 영향자

타당성 검토 3요소

  • 경제적: 비용 대비 편익
  • 데이터: 데이터 확보 가능 여부
  • 기술적: 기술 인프라 및 역량 여부

5. 상향식 접근법

  • 문제가 명확하지 않을 때 관찰에서 출발
  • 비지도학습 기반 접근 방식에 적합
  • 핵심 키워드: "What" 관점
  • 순서:
    • 1. 프로세스 분류: 주요 프로세스를 그룹화
    • 2. 프로세스 흐름 분석: 분류된 프로세스의 흐름을 분석하여 관계 파악
    • 3. 분석 요건 식별: 흐름을 기반으로 분석이 필요한 요구사항(요건)을 도출
    • 4. 분석 요건 정의: 식별된 요건을 구체화하고 실행 가능한 형태로 정리

6. 디자인 싱킹 (Design Thinking)

  • 공감 → 문제정의 → 아이디어 → 프로토타입 → 테스트
  • 고객 중심 설계, 반복 피드백 기반 접근

7. 분석 방법론 구성 요소

  • 절차
  • 방법
  • 도구 및 기법
  • 템플릿과 산출물

8. 분석 고려 5요소

  • 데이터 크기
  • 데이터 속도
  • 데이터 복잡도
  • 분석 복잡도
  • 정확도 vs 정밀도 (Trade-Off 관계)

9. 프로젝트 관리 지식 체계 (PMBOK)

  • 10가지 요소
    → 통합, 범위, 시간, 원가, 품질, 인적자원, 의사소통, 리스크, 조달, 이해관계자

       → "이범통의자에서 시원 조리퐁을 먹었다" 암기


10. 우선순위 결정 (ROI 관점)

  • 시급성 기준: Return (Value)
  • 난이도 기준: Investment (Volume, Variety, Velocity)

ROI 매트릭스

 난이도 \ 시급성 낮음  높음
낮음 1 2
높음 3 4
  • 시급성 중요시: 3 → 4 → 2
  • 난이도 중요시: 3 → 1 → 2

⮕ 3과 2는 고정, 가운데만 바뀜


11. 분석 방법론 모델과 구성요소

모델  특징
폭포수 단계별 순차적 (Top-Down)
나선형 반복과 점진적 개발, 위험 관리 중심
프로토타입 일부 개발 후 반복 개선
애자일 짧은 주기 반복, 고객 피드백 수렴

 

● 분석 방법론의 구성요소

  • 데이터 선택 ⮕ 전처리⮕ 변환 ⮕  마이닝 ⮕  결과 평가
  • 1. 전처리: 이상값, 잡음 식별 및 데이터 가공
  • 2. 변환: 변수 선택 및 차원 축소

12. CRISP-DM 분석 절차

  1. 업무 이해
  2. 데이터 이해
  3. 데이터 준비
  4. 모델링
  5. 평가
  6. 전개

   업데데이(트) 모델 평가 전개

💡 모델링 단계에서 모델을 만들고, 평가 단계에서 적용성 평가


13. 빅데이터 분석 방법론

<빅데이터 분석 방법론의 개발절차, 출처 이기적 스터디 카페>

 

  • 분석 기획
    • 프로젝트 위험계획 수립(피, 이, 화, 용) ⮕ 회전완수’
  • 데이터 분석
    • 추가적인 데이터 확보 필요 시, 데이터 준비 단계로 다시 진행

14. 분석 거버넌스 구성요소

  • 스템, 직, 프로세스, 인드, 이터  ⮕ 시조프로마인드데’

15. 분석 수준 진단

  •  분석 준비도
    • 분석업무파악: 사실 분석, 예측, 시뮬레이션, 최적화, 분석 업무 정기적 개선
    • 분석인력 및 조직: 분석전문가, 관리자, 조직, 경영진 이해 
    • 분석기법: 적합한 기법 사용, 분석기법 라이브러리/평가/개선
    • 분석문화: 의사결정, 회의에서 활용, 공유 및 협업 문화
    • IT인프라: 운영 시스템 통합, 환경
    • 분석데이터: 데이터 관리, 외부데이터 활용, 기준데이터 관리(MDM)
  • 분석 성숙도(CMMI 모델 기반)
    • 비즈니스 / 조직,역량/ IT부문 관점으로 구분 
      • : 환경, 시스템 구축
      • 활용: 업무에 적용
      • : 전사 차원 관리, 공유
      • 적화: 혁신, 성과향상에 기여

16. 데이터 분석 성숙도 모델

    1. 도입형: 조직 및 인력 등 준비도는 높으나, 분석업무 및 기법 부족
    2. 준비형: 데이터, 인력, 조직, 분석업무, 분석기법 적용 안되어 사전 준비 필요
    3. 정착형: 인력, 조직, 분석업무, 분석기법 등을 제한적으로 사용
    4. 확산형: 6가지 분석 구성요소가 모두 갖추고 있으며, 지속적 확산이 가능


16. 분석 인프라 방안

  • 중앙 집중 관리 구조
  • 확장성 고려한 플랫폼 설계

17. 데이터 거버넌스

요소  설명
원칙 데이터 관리의 기본 규칙
조직 책임 조직 구성
프로세스 관리/운영 절차 수립

 

중요 대상

  • 마스터 데이터: 자료 처리에 기준이 되는 자료
  • 메타데이터: 다른 데이터를 설명하는 데이터
  • 데이터 사전: DB에 저장된 정보를 요약

 

데이터 거버넌스 체계 구성

  1. 데이터 표준화 : 메타데이터 및 사전 구축
  2. 데이터 관리 체계: 효율성을 위함
  3. 저장소 관리: 저장소 구성
  4. 표준화 활동: 모니터링, 표준 개선 활동

18. 빅데이터 거버넌스

  • 데이터 거버넌스 기반
    • 빅데이터 처리 최적화
    • 정보 보호
    • 카테고리별 관리 책임자 지정 포함
728x90
반응형
LIST