On the journey of

[이브와] 강화학습의 구성 요소와 그 종류 톺아보기 본문

Experiences & Study/이브와(KIBWA)

[이브와] 강화학습의 구성 요소와 그 종류 톺아보기

dlrpskdi 2023. 6. 26. 20:06

강화학습을 구성하는 요소는 크게 3가지이다. 기반 이론 // 환경 //  Agent(에이전트). 

이 중 기반이론은 크게 MDP와 몬테카를로 기법, 벨만방정식(벨만기대방정식, 벨만최적방정식)의 3부류로 나뉜다. 

1. MDP 

  • 마르코프 프로세스
  • 마르코프 결정 프로세스(MDP) : 상태집합, 에이전트, 전이확률, 보상함수, 감쇠인자
  • MDP 함수 : 정책함수, 최적가치함수, 상태가치함수, 액션(행동)가치함수(Q)
  • 마르코프 보상 프로세스(MRP) 

 

2. 환경 - Prediction & Control 2개 부류가 있다. 

Prediction 

  • MDP를 아는 경우 Model- based Planning : 테이블 기반 방법론, 반복적 정책평가
  • MDP를 모르는 경우 Model - Free Planning. : 몬테카를로(MC) 학습, Temporal Difference(TD) 학습, n스텝 TD

Control

  • Model - Based : 정책 이터레이션, value 이터레이션
  • Model - Free: MC(몬테카를로) 컨트롤, TD 컨트롤(On-policy : SARSA, Off-policy : Q러닝)

 

3. 에이전트(Agent) - 가치기반 Agent, 정책기반 Agent, 액터-크리틱 Agent

 

가치기반 Agent

  • 가치함수
  • Q Network : 몬테카를로 리턴, TD Target
  • DQN : Experience Replay, Target Network

정책기반 Agent

  • 평가함수
  • Policy Gradient
  • Reinforce 알고리즘

Actor-Critic 기반 Agent (가치기반, 정책기반 Agent의 Hybrid Agent)

  • Q 액터-크리틱
  • 어드밴티지(Advantage) 액터-크리틱
  • TD 액터-크리틱