전산직/컴퓨터일반
머신러닝 학습 유형(지도학습, 비지도학습, 반지도학습)
glorypang
2025. 11. 7. 22:50
728x90
반응형
SMALL
머신러닝이란?
머신러닝(Machine Learning)은
데이터를 통해 스스로 패턴을 학습하고 예측이나 분류를 수행하는 기술입니다.
머신러닝은 학습에 사용되는 데이터의 정답(레이블, Label) 유무에 따라
다음 3가지로 구분됩니다
| 구분 | 정답(Label) 정답(Label) |
| 지도학습 (Supervised Learning) | ✅ 있음 |
| 비지도학습 (Unsupervised Learning) | ❌ 없음 |
| 반지도학습 (Semi-Supervised Learning) | ⚙️ 일부만 있음 |
지도학습 (Supervised Learning)
“입력(Input)”과 “정답(Output, Label)”이 모두 주어진 상태에서
입력 → 정답 관계를 학습하는 방식.
목표
- 이미 알고 있는 데이터로 “모델”을 훈련
- 새로운 입력이 들어오면 정답을 예측
예시
- 스팸 메일 분류:
입력 → 이메일 내용
출력 → “스팸 / 정상” - 집값 예측:
입력 → 평수, 위치, 방 개수
출력 → 가격
대표 알고리즘
| 분류 | 알고리즘 |
| 회귀(Regression) | 선형 회귀(Linear Regression), 다항 회귀 |
| 분류(Classification) | 로지스틱 회귀, KNN, SVM, 의사결정나무, 랜덤포레스트, 신경망 |
특징
- 정확한 결과를 예측 가능
- 많은 양의 라벨 데이터가 필요함
비지도학습 (Unsupervised Learning)
정답(Label)이 없는 데이터를 통해
데이터 내 숨은 패턴이나 구조를 발견하는 방식.
목표
- 데이터를 군집화(Clustering) 하거나
- 차원 축소(Dimension Reduction), 이상치 탐지(Outlier Detection) 등
예시
- 고객을 소비 패턴으로 그룹화 (군집화)
- 이미지 데이터 압축
- 이상한 신용카드 거래 탐지
대표 알고리즘
| 유형 | 알고리즘 |
| 군집화 | K-means, 계층적 군집화(Hierarchical Clustering), DBSCAN |
| 차원축소 | PCA(주성분 분석), t-SNE, AutoEncoder |
특징
- 라벨이 없어 사람이 직접 정답을 제공하지 않음
- 데이터 이해, 시각화, 전처리 단계에서 유용
반지도학습 (Semi-Supervised Learning)
“라벨이 있는 데이터 + 라벨이 없는 데이터”를 함께 사용하여 학습하는 방식.
목표
- 적은 라벨 데이터로도 높은 성능을 내기 위함
- 실제 산업에서는 라벨링 비용이 크기 때문에 자주 사용
예시
- 수천 개의 의료 이미지 중
→ 일부만 병리사가 라벨링
→ 나머지는 모델이 스스로 패턴 학습 - 음성 인식 데이터 중 일부만 “텍스트 정답”이 있음
대표 알고리즘
- Semi-Supervised SVM
- Label Propagation / Label Spreading
- Pseudo-Labeling
- Consistency Regularization
- Semi-Supervised GAN (SSGAN)
특징
- 라벨링 비용 절감
- 지도학습의 정확도 + 비지도학습의 확장성 결합
세 가지 방식 비교표
| 구분 | 지도학습 | 비지도학습 | 반지도학습 |
| 정답(라벨) | 있음 | 없음 | 일부 있음 |
| 목표 | 입력→정답 예측 | 데이터 내 구조 발견 | 일부 라벨로 일반화 |
| 대표 알고리즘 | 회귀, 분류 (SVM, RF 등) | K-means, PCA | Label Propagation |
| 장점 | 정확도 높음 | 라벨 불필요 | 라벨링 비용 절감 |
| 단점 | 라벨링 비용 높음 | 결과 해석 어려움 | 구현 복잡 |
| 활용 예시 | 스팸메일, 예측 | 고객 세분화, 이상탐지 | 의료 이미지, 음성인식 |
728x90
반응형
LIST