728x90
반응형
SMALL
개념 요약
강화학습이란, 에이전트(Agent) 가 환경(Environment) 과 상호작용하면서
보상(Reward) 을 최대화하도록 학습하는 방식이에요.
즉, 정답 데이터를 미리 주지 않고,
스스로 시행착오를 통해 "무엇이 좋은 행동인지" 배우는 학습입니다.
기본 구조
강화학습은 다음 5가지 구성 요소로 이루어져 있어요 👇
| 구성요소 | 설명 | 예시 (자율주행차) |
| Agent (에이전트) | 행동을 수행하는 주체 | 자율주행 시스템 |
| Environment (환경) | 에이전트가 상호작용하는 세상 | 도로, 신호등, 보행자 |
| State (상태) | 현재 상황 | 현재 위치, 속도, 거리 |
| Action (행동) | 에이전트가 취할 수 있는 선택 | 가속, 감속, 회전 등 |
| Reward (보상) | 행동의 결과로 얻는 값 | 안전 운전 시 +보상, 사고 시 -보상 |
동작 과정
- 에이전트가 현재 상태 Sₜ 를 관찰
- 행동 Aₜ 을 선택 (정책 π에 따라)
- 환경이 결과로 보상 Rₜ 과 다음 상태 Sₜ₊₁ 제공
- 에이전트는 이를 바탕으로 정책(Policy) 을 업데이트
- 보상을 최대화하는 방향으로 점점 학습
이 과정을 반복하면서
"어떤 상황에서 어떤 행동을 하면 보상이 커지는가?" 를 스스로 익히게 됩니다.
주요 개념
| 용어 | 의미 | 설명 |
| 정책(Policy, π) | 행동을 선택하는 전략 | 어떤 상태에서 어떤 행동을 할지 결정 |
| 가치(Value) | 상태나 행동의 “좋음” 정도 | 미래 보상의 기대값 |
| 보상(Reward) | 즉각적인 이득 | 목표 달성 여부에 따라 + 또는 - |
| Q함수(Q-value) | (상태, 행동) 쌍의 가치 | Q(s, a) = “s에서 a를 했을 때의 기대 보상” |
| 에피소드(Episode) | 한 번의 시도 (시작~끝) | 예: 게임 한 판 |
학습 방법의 종류
| 분류 | 설명 | 대표 알고리즘 |
| 가치 기반 (Value-based) | 상태의 가치를 학습하고, 그에 따라 행동 결정 | Q-Learning, Deep Q-Network (DQN) |
| 정책 기반 (Policy-based) | 직접 행동 정책(π)을 학습 | REINFORCE, Actor-Critic |
| 모델 기반 (Model-based) | 환경의 모델을 예측하여 계획적으로 학습 | Dyna-Q, Model Predictive Control |
| 하이브리드 (Value + Policy) | 둘을 동시에 학습하여 효율성 향상 | A3C, PPO, DDPG |
장점과 한계
장점
- 명시적 정답이 없어도 학습 가능
- 복잡한 환경에서도 최적 행동 학습
- 실시간 의사결정에 강함
단점
- 학습 속도 느림
- 보상 설계가 어렵다
- 탐색(Exploration) 문제 존재
탐색 vs 활용 (Exploration vs Exploitation)
- 탐색 (Exploration): 새로운 행동을 시도해서 더 나은 보상을 찾는 과정
- 활용 (Exploitation): 이미 알고 있는 가장 좋은 행동을 반복 수행
💡 강화학습은 이 두 가지 사이의 균형(balance) 이 핵심이에요.
728x90
반응형
LIST