전산직/데이터베이스

강화학습 (Reinforcement Learning, RL) 정리

glorypang 2025. 11. 7. 22:19
728x90
반응형
SMALL

개념 요약

강화학습이란, 에이전트(Agent) 가 환경(Environment) 과 상호작용하면서
보상(Reward) 을 최대화하도록 학습하는 방식이에요.

 

즉, 정답 데이터를 미리 주지 않고,
스스로 시행착오를 통해 "무엇이 좋은 행동인지" 배우는 학습입니다.


기본 구조

강화학습은 다음 5가지 구성 요소로 이루어져 있어요 👇

구성요소  설명  예시 (자율주행차)
Agent (에이전트) 행동을 수행하는 주체 자율주행 시스템
Environment (환경) 에이전트가 상호작용하는 세상 도로, 신호등, 보행자
State (상태) 현재 상황 현재 위치, 속도, 거리
Action (행동) 에이전트가 취할 수 있는 선택 가속, 감속, 회전 등
Reward (보상) 행동의 결과로 얻는 값 안전 운전 시 +보상, 사고 시 -보상

동작 과정

  1. 에이전트가 현재 상태 Sₜ 를 관찰
  2. 행동 Aₜ 을 선택 (정책 π에 따라)
  3. 환경이 결과로 보상 Rₜ 과 다음 상태 Sₜ₊₁ 제공
  4. 에이전트는 이를 바탕으로 정책(Policy) 을 업데이트
  5. 보상을 최대화하는 방향으로 점점 학습

이 과정을 반복하면서

"어떤 상황에서 어떤 행동을 하면 보상이 커지는가?" 를 스스로 익히게 됩니다.


주요 개념

용어  의미  설명
정책(Policy, π) 행동을 선택하는 전략 어떤 상태에서 어떤 행동을 할지 결정
가치(Value) 상태나 행동의 “좋음” 정도 미래 보상의 기대값
보상(Reward) 즉각적인 이득 목표 달성 여부에 따라 + 또는 -
Q함수(Q-value) (상태, 행동) 쌍의 가치 Q(s, a) = “s에서 a를 했을 때의 기대 보상”
에피소드(Episode) 한 번의 시도 (시작~끝) 예: 게임 한 판

학습 방법의 종류

분류  설명  대표 알고리즘
가치 기반 (Value-based) 상태의 가치를 학습하고, 그에 따라 행동 결정 Q-Learning, Deep Q-Network (DQN)
정책 기반 (Policy-based) 직접 행동 정책(π)을 학습 REINFORCE, Actor-Critic
모델 기반 (Model-based) 환경의 모델을 예측하여 계획적으로 학습 Dyna-Q, Model Predictive Control
하이브리드 (Value + Policy) 둘을 동시에 학습하여 효율성 향상 A3C, PPO, DDPG

장점과 한계

장점

  •  명시적 정답이 없어도 학습 가능
  • 복잡한 환경에서도 최적 행동 학습
  • 실시간 의사결정에 강함

단점

  •  학습 속도 느림
  • 보상 설계가 어렵다
  • 탐색(Exploration) 문제 존재

탐색 vs 활용 (Exploration vs Exploitation)

  • 탐색 (Exploration): 새로운 행동을 시도해서 더 나은 보상을 찾는 과정
  • 활용 (Exploitation): 이미 알고 있는 가장 좋은 행동을 반복 수행

💡 강화학습은 이 두 가지 사이의 균형(balance) 이 핵심이에요.

728x90
반응형
LIST