정보처리기사/정보시스템 구축관리

빅데이터 플랫폼/도구

glorypang 2025. 10. 3. 01:03
728x90
반응형
SMALL

분산 저장 · 데이터 레이크

HDFS

  • 개념: 하둡 분산 파일 시스템(블록 단위 저장, 복제).
  • 특징: 대용량·순차 처리 최적화, 내결함성(복제), 스케일아웃 확장.
  • 한줄용도: 거대한 파일/로그를 저비용으로 분산 저장.

데이터베이스 / 키-밸류

HBase

  • 개념: HDFS 위의 와이드 컬럼 NoSQL.
  • 특징: 랜덤 읽기/쓰기, 스키마 유연, 거대 테이블에 강함.
  • 한줄용도: 타임시리즈/키 기반 저지연 조회·적재.

Cassandra

  • 개념: 분산 와이드 컬럼 NoSQL, 마스터리스.
  • 특징: 고가용성/멀티리전, 쓰기 성능 우수, 튜닝에 따라 일관성 가변.
  • 한줄용도: 글로벌 서비스의 항시 가용 키-밸류 저장소.

Elasticsearch

  • 개념: 분산 검색/분석 엔진(역색인 기반).
  • 특징: 텍스트 검색·집계에 강함, 스키마 유연, 실시간성.
  • 한줄용도: 로그/검색/모니터링 쿼리와 대화형 분석.

SQL / 쿼리 엔진

Apache Hive

  • 개념: 하둡 생태계용 배치 SQL 레이어(메타스토어 기반).
  • 특징: 대용량 ETL/집계를 SQL로 표현, 실행은 MR/Tez/Spark 등.
  • 한줄용도: 데이터 레이크 위 DWH 스타일 배치 처리.

플랫폼

Hadoop

  • 개념: 오픈소스 분산 컴퓨팅 플랫폼(HDFS + YARN + MapReduce).
  • 특징: 일반 PC급 서버를 묶어 분산 저장·배치 처리, 내결함성·확장성.
  • 한줄용도: 빅데이터 인프라의 기반 스택(저장·자원관리·배치 처리).

빅데이터 분석

데이터 마이닝 (Data Mining)

  • 개념: 대량의 데이터에서 내재된 변수들 간의 상호 관계를 분석해 유의미한 패턴·규칙을 찾아내는 기법.
  • 특징: 분류·군집·연관규칙·이상탐지 등 기법 포함, 지도/비지도 학습 관점에서 적용. 

데이터 이동 · ETL

Sqoop

  • 개념: 관계형 DB(RDBMS)와 Hadoop(HDFS/Hive 등) 간 대량 데이터 수집·내보내기를 위한 커맨드라인 도구(Apache Sqoop). JDBC를 통해 데이터 추출·적재를 자동화.
  • 특징: 병렬 JDBC 기반 임포트/익스포트(성능 고려), RDB 테이블을 HDFS 파일 또는 Hive 테이블로 손쉽게 적재, 스키마·파티셔닝 옵션 지원. ETL 파이프라인과 연계하기 쉬움.
  • 한줄용도: 운영 DB의 대규모 배치 데이터를 Hadoop으로 이동해 분석하고, 분석 결과를 RDB로 반출해 BI에 연동.

 

728x90
반응형
LIST