On the journey of
[이브와] DQN 알고리즘과 강화학습, 주가예측 본문
* 위 도서의 chap.09 '강화학습과 인공지능' 을 공부하며 기록하는 내용임을 밝힙니다.
9.1. 강화학습의 원리와 응용 (1)
1. 기본적으로 강화학습은 시행착오를 겪으면서 학습하는 방법이라고 볼 수 있다. 기계학습에는 크게 정답(label)이 있는 데이터가 있고, 그렇지 않은 데이터가 있다. 전자의 데이터로 학습하는 것을 지도학습, 후자의 경우를 비지도학습이라고 한다. 강화학습은 지도학습처럼 라벨이 있는 데이터를 통해 가중치와 편향을 학습하는 것과 유사한, 보상이라는 개념을 사용하여 가중치와 편향을 학습하는 방법이다. 구체적으로는, 보상을 극대화하기 위한 방향성을 찾는 방법이다.
2, 크게 Model - Based , Model - Free 알고리즘 2개 종류가 있다.
Model - based : 환경에 대한 설명, 환경 상황 등 모든 것을 알고 솔루션을 찾아나가는 방법. 모델은 직접 행동을 하지 않고, 상태와 행동을 input으로 받아 다음 상태와 보상을 예측한다.
Model - Free : 환경에 대한 설명 등이 일절 없다. 즉, 상황(환경)을 모르는 상태이기에 환경 파악을 위한 탐사를 진행하며, Agent가 보상 합의 기댓값을 최대로 하는 찾아내는 방식이다. 위의 시행착오는 여기에서, '보상을 최대한 많이 얻도록 유도하는' 과정에서 등장한다.
2-1. 탐험형 vs 탐사형 : 강화학습 문제를 접했을 때, 적용할 수 있는 양 극단에 해당하는 정책은 각 탐험형과 탐사형이다.
* 탐험형(Exploration) : 매 차례 랜덤으로 선택하는 방식. 확률이 가장 높은 개체를 선택할 수는 있으나 매우 비효율적
* 탐사형(Exploitation) : 몇 번 시도해보고, 그때까지 가장 높은 확률을 보인 개체만 지속적으로 선택하는 방식. 확률이 가장 높은 개체를 놓칠 가능성이 농후하며, 탐욕 알고리즘은 탐사형 방법론의 한 종류이다.
: 효율과 확률의 극단에 놓인 두 옵션의 균형을 맞추는 것이 매우 중요하다.
* 탐욕 알고리즘: 정확하게는 현재 순간의 정보만으로 최적해를 구하는 데 사용되는 근사적인 방법. Alpha-균형 알고리즘이라 하면, alpha 비율만큼 랜덤정책을 적용하여 탐험형 정책을 섞음으로써 탐험과 탐사의 균형을 추구하는 방법이다.
9.2 강화학습의 원리와 응용 (2): 강화학습은 그럼 어디에 쓰일까?
1. Multi-Armed Bandit (멀티암드 밴딧) 문제: n개 손잡이가 달린 밴딧에서 어떤 손잡이를 잡았을 때 보상이 가장 큰지 찾아내는 문제 - https://en.wikipedia.org/wiki/Multi-armed_bandit
: 강화학습 이외에, 최적 정책과 누적 보상이라는 개념이 필요하다.
1) 최적 정책: 누적 보상을 최대화하는 정책으로, 가능한 모든 정책 중 가장 좋은 정책을 의미한다. 문제가 단순하면 정책 찾기도 쉽지만, MNIST 숫자 분류라던가 CIFAR-10 Dataset을 활용하는 DNN 문제의 경우 학습 알고리즘 없이는 최적 정책을 알아낼 수가 없다.
2) 최적 방정식(벨만 최적 방정식 ; Bellman Optimality Equation)
: 최적 정책을 찾아내기 위한 하나의 방법으로, Agent가 어떻게 행동하는지를 결정하는 방정식이다. Agent가 어떻게 행동하는지에 대한 정책이 정해져야 그 후의 가치함수가 결정될 수 있기 때문이다. 기본적으로 어떤 정책이 다른 정책보다 최적이다(좋다)고 판단하기 위해서는, 아래 그래프처럼 all state에서 value of pi1 >= value of pi2 라고 할 수 있어야 한다.
벨만 방정식을 수식화하면 위 max 식과 같이 표현할 수 있다.
3) 누적 보상 & 가치함수
* 가치 함수는 특정 정책의 좋은 정도(=누적 보상치 혹은 그 추정치)를 평가하는 함수
위 함수식에서 PZ(z)는 경로 z의 발생확률, r(z)는 rewards, 즉 경로 z의 누적 보상액이 된다.
4) MDP(Markov Decision Process) & 마르코프 과정(Markov Process)
- 마르코프 과정: Markov 가정을 만족하는 연속적인 일련의 확률 과정으로, 일련의 상태 s1, s2, .... , st와 상태 전이 확률 P로 구성된 튜플
- MDP : 마르코프 과정을 기반으로 한 의사 결정 모델로, 마르코프 과정에 행동(A), 보상(R)과 감가율 gamma가 추가된 튜플이다. 행동이 추가되는 만큼, 어떤 상태에 대한 행동을 결정해야 한다.
두서 없는, 임시저장 N차례 끝의 첫 강화학습 글 끝.....
진짜 어렵다.......
'Experiences & Study > 이브와(KIBWA)' 카테고리의 다른 글
[Deep Reinforcement Learning Hands On] Chapter.04 (0) | 2023.08.04 |
---|---|
[Deep Reinforcement Learning Hands On] Chapter.02 (0) | 2023.08.04 |
[Deep Reinforcement Learning Hands On] Chapter.01 (0) | 2023.08.04 |
[이브와] 강화학습의 구성 요소와 그 종류 톺아보기 (0) | 2023.06.26 |
[이브와] DQN 알고리즘과 강화학습, 주가예측 (2) (0) | 2023.06.25 |