전산직/컴퓨터일반

머신러닝 학습 유형(지도학습, 비지도학습, 반지도학습)

glorypang 2025. 11. 7. 22:50
728x90
반응형
SMALL

머신러닝이란?

머신러닝(Machine Learning)은
데이터를 통해 스스로 패턴을 학습하고 예측이나 분류를 수행하는 기술입니다.

 

머신러닝은 학습에 사용되는 데이터의 정답(레이블, Label) 유무에 따라
다음 3가지로 구분됩니다 

구분  정답(Label) 정답(Label)
지도학습 (Supervised Learning) ✅ 있음
비지도학습 (Unsupervised Learning) ❌ 없음
반지도학습 (Semi-Supervised Learning) ⚙️ 일부만 있음

지도학습 (Supervised Learning)

입력(Input)”과 “정답(Output, Label)”이 모두 주어진 상태에서
입력 → 정답 관계를 학습하는 방식.

목표

  • 이미 알고 있는 데이터로 “모델”을 훈련
  • 새로운 입력이 들어오면 정답을 예측

예시

  • 스팸 메일 분류:
    입력 → 이메일 내용
    출력 → “스팸 / 정상”
  • 집값 예측:
    입력 → 평수, 위치, 방 개수
    출력 → 가격

대표 알고리즘

분류  알고리즘
회귀(Regression) 선형 회귀(Linear Regression), 다항 회귀
분류(Classification) 로지스틱 회귀, KNN, SVM, 의사결정나무, 랜덤포레스트, 신경망

특징

  • 정확한 결과를 예측 가능
  • 많은 양의 라벨 데이터가 필요함

비지도학습 (Unsupervised Learning)

정답(Label)이 없는 데이터를 통해
데이터 내 숨은 패턴이나 구조를 발견하는 방식.

목표

  • 데이터를 군집화(Clustering) 하거나
  • 차원 축소(Dimension Reduction), 이상치 탐지(Outlier Detection)

예시

  • 고객을 소비 패턴으로 그룹화 (군집화)
  • 이미지 데이터 압축
  • 이상한 신용카드 거래 탐지

대표 알고리즘

유형  알고리즘
군집화 K-means, 계층적 군집화(Hierarchical Clustering), DBSCAN
차원축소 PCA(주성분 분석), t-SNE, AutoEncoder

특징

  • 라벨이 없어 사람이 직접 정답을 제공하지 않음
  • 데이터 이해, 시각화, 전처리 단계에서 유용

반지도학습 (Semi-Supervised Learning)

“라벨이 있는 데이터 + 라벨이 없는 데이터”를 함께 사용하여 학습하는 방식.

목표

  • 적은 라벨 데이터로도 높은 성능을 내기 위함
  • 실제 산업에서는 라벨링 비용이 크기 때문에 자주 사용

예시

  • 수천 개의 의료 이미지 중
    → 일부만 병리사가 라벨링
    → 나머지는 모델이 스스로 패턴 학습
  • 음성 인식 데이터 중 일부만 “텍스트 정답”이 있음

대표 알고리즘

  • Semi-Supervised SVM
  • Label Propagation / Label Spreading
  • Pseudo-Labeling
  • Consistency Regularization
  • Semi-Supervised GAN (SSGAN)

특징

  • 라벨링 비용 절감
  • 지도학습의 정확도 + 비지도학습의 확장성 결합

세 가지 방식 비교표

구분  지도학습  비지도학습  반지도학습
정답(라벨) 있음 없음  일부 있음 
목표 입력→정답 예측 데이터 내 구조 발견 일부 라벨로 일반화
대표 알고리즘 회귀, 분류 (SVM, RF 등) K-means, PCA Label Propagation
장점 정확도 높음 라벨 불필요 라벨링 비용 절감
단점 라벨링 비용 높음 결과 해석 어려움 구현 복잡
활용 예시 스팸메일, 예측 고객 세분화, 이상탐지 의료 이미지, 음성인식

 

728x90
반응형
LIST