On the journey of
[이브와] 강화학습의 구성 요소와 그 종류 톺아보기 본문
강화학습을 구성하는 요소는 크게 3가지이다. 기반 이론 // 환경 // Agent(에이전트).
이 중 기반이론은 크게 MDP와 몬테카를로 기법, 벨만방정식(벨만기대방정식, 벨만최적방정식)의 3부류로 나뉜다.
1. MDP
- 마르코프 프로세스
- 마르코프 결정 프로세스(MDP) : 상태집합, 에이전트, 전이확률, 보상함수, 감쇠인자
- MDP 함수 : 정책함수, 최적가치함수, 상태가치함수, 액션(행동)가치함수(Q)
- 마르코프 보상 프로세스(MRP)
2. 환경 - Prediction & Control 2개 부류가 있다.
Prediction
- MDP를 아는 경우 Model- based Planning : 테이블 기반 방법론, 반복적 정책평가
- MDP를 모르는 경우 Model - Free Planning. : 몬테카를로(MC) 학습, Temporal Difference(TD) 학습, n스텝 TD
Control
- Model - Based : 정책 이터레이션, value 이터레이션
- Model - Free: MC(몬테카를로) 컨트롤, TD 컨트롤(On-policy : SARSA, Off-policy : Q러닝)
3. 에이전트(Agent) - 가치기반 Agent, 정책기반 Agent, 액터-크리틱 Agent
가치기반 Agent
- 가치함수
- Q Network : 몬테카를로 리턴, TD Target
- DQN : Experience Replay, Target Network
정책기반 Agent
- 평가함수
- Policy Gradient
- Reinforce 알고리즘
Actor-Critic 기반 Agent (가치기반, 정책기반 Agent의 Hybrid Agent)
- Q 액터-크리틱
- 어드밴티지(Advantage) 액터-크리틱
- TD 액터-크리틱
'Experiences & Study > 이브와(KIBWA)' 카테고리의 다른 글
[Deep Reinforcement Learning Hands On] Chapter.04 (0) | 2023.08.04 |
---|---|
[Deep Reinforcement Learning Hands On] Chapter.02 (0) | 2023.08.04 |
[Deep Reinforcement Learning Hands On] Chapter.01 (0) | 2023.08.04 |
[이브와] DQN 알고리즘과 강화학습, 주가예측 (2) (0) | 2023.06.25 |
[이브와] DQN 알고리즘과 강화학습, 주가예측 (0) | 2023.06.25 |