전산직/데이터베이스

정형 · 반정형 · 비정형 데이터

glorypang 2025. 11. 8. 23:24
728x90
반응형
SMALL

정형 데이터 (Structured Data)

미리 정해진 구조(스키마)에 따라 저장된 데이터

  • 설명:
    행(Row)과 열(Column)로 구성된 표 형태의 데이터로, 관계형 데이터베이스(RDBMS)에 저장
    구조가 엄격하게 정의되어 있어 검색과 분석이 매우 쉬움.
  • 예시:
    • 은행 거래 내역
    • 학생 성적표
    • 고객 정보 테이블
    • 엑셀(Excel) 데이터
  • 특징:
    • 스키마(테이블 구조)가 고정됨
    • SQL로 손쉽게 질의 가능
    • 저장 및 관리 용이
    • 새로운 데이터 형식 추가가 어렵고 유연성은 낮음

반정형 데이터 (Semi-structured Data)

일정한 구조는 있지만 완전히 고정된 스키마는 없는 데이터

  • 설명:
    태그나 키-값(Key-Value) 구조로 이루어져 있으며, 데이터마다 약간의 형식 차이가 있어도 문제없이 저장
    완전히 자유롭지는 않지만, 유연한 형태
  • 예시:
    • XML, JSON 파일
    • 웹 로그(Log)
    • 이메일 헤더
    • NoSQL 데이터베이스 (MongoDB 등)
  • 특징:
    • 일부 구조 존재 (태그, 필드명 등)
    • 유연하고 확장성 높음
    • 다양한 데이터 형태를 수용 가능
    • 정형 데이터보다 분석 난이도 높음

비정형 데이터 (Unstructured Data)

형태나 구조가 전혀 없는 데이터

  • 설명:
    일정한 포맷이 없고, 텍스트·이미지·음성 등
    사람이 이해하기 쉬운 형태로 존재하지만 컴퓨터가 바로 처리하기 어려운 데이터입니다.
  • 예시:
    • 텍스트 문서 (TXT, DOC)
    • 이미지, 동영상, 오디오
    • SNS 게시글, 댓글, 이메일 본문
  • 특징:
    • 구조 없음 (비정형적)
    • 데이터 양이 매우 방대
    • AI, 머신러닝을 활용한 분석 필수
    • 저장·처리·검색이 복잡함

정리

구분  구조화 정도  예시  분석 난이도  대표 기술
정형 완전함 RDB 테이블, 엑셀 낮음 MySQL, Oracle
반정형 부분적 JSON, XML, 로그 중간 MongoDB, Cassandra
비정형 없음 이미지, 영상, SNS 높음 Hadoop, Spark, AI
정형 → 반정형 → 비정형
구조는 약해지고, 데이터는 많아지며, 분석은 어려워진다!

 

728x90
반응형
LIST