728x90
반응형
SMALL
정형 데이터 (Structured Data)
미리 정해진 구조(스키마)에 따라 저장된 데이터
- 설명:
행(Row)과 열(Column)로 구성된 표 형태의 데이터로, 관계형 데이터베이스(RDBMS)에 저장
구조가 엄격하게 정의되어 있어 검색과 분석이 매우 쉬움. - 예시:
- 은행 거래 내역
- 학생 성적표
- 고객 정보 테이블
- 엑셀(Excel) 데이터
- 특징:
- 스키마(테이블 구조)가 고정됨
- SQL로 손쉽게 질의 가능
- 저장 및 관리 용이
- 새로운 데이터 형식 추가가 어렵고 유연성은 낮음
반정형 데이터 (Semi-structured Data)
일정한 구조는 있지만 완전히 고정된 스키마는 없는 데이터
- 설명:
태그나 키-값(Key-Value) 구조로 이루어져 있으며, 데이터마다 약간의 형식 차이가 있어도 문제없이 저장
완전히 자유롭지는 않지만, 유연한 형태 - 예시:
- XML, JSON 파일
- 웹 로그(Log)
- 이메일 헤더
- NoSQL 데이터베이스 (MongoDB 등)
- 특징:
- 일부 구조 존재 (태그, 필드명 등)
- 유연하고 확장성 높음
- 다양한 데이터 형태를 수용 가능
- 정형 데이터보다 분석 난이도 높음
비정형 데이터 (Unstructured Data)
형태나 구조가 전혀 없는 데이터
- 설명:
일정한 포맷이 없고, 텍스트·이미지·음성 등
사람이 이해하기 쉬운 형태로 존재하지만 컴퓨터가 바로 처리하기 어려운 데이터입니다. - 예시:
- 텍스트 문서 (TXT, DOC)
- 이미지, 동영상, 오디오
- SNS 게시글, 댓글, 이메일 본문
- 특징:
- 구조 없음 (비정형적)
- 데이터 양이 매우 방대
- AI, 머신러닝을 활용한 분석 필수
- 저장·처리·검색이 복잡함
정리
| 구분 | 구조화 정도 | 예시 | 분석 난이도 | 대표 기술 |
| 정형 | 완전함 | RDB 테이블, 엑셀 | 낮음 | MySQL, Oracle |
| 반정형 | 부분적 | JSON, XML, 로그 | 중간 | MongoDB, Cassandra |
| 비정형 | 없음 | 이미지, 영상, SNS | 높음 | Hadoop, Spark, AI |
정형 → 반정형 → 비정형
구조는 약해지고, 데이터는 많아지며, 분석은 어려워진다!
728x90
반응형
LIST