목록Experiences & Study/이브와(KIBWA) (7)
On the journey of
강화학습을 구성하는 요소는 크게 3가지이다. 기반 이론 // 환경 // Agent(에이전트). 이 중 기반이론은 크게 MDP와 몬테카를로 기법, 벨만방정식(벨만기대방정식, 벨만최적방정식)의 3부류로 나뉜다. 1. MDP 마르코프 프로세스 마르코프 결정 프로세스(MDP) : 상태집합, 에이전트, 전이확률, 보상함수, 감쇠인자 MDP 함수 : 정책함수, 최적가치함수, 상태가치함수, 액션(행동)가치함수(Q) 마르코프 보상 프로세스(MRP) 2. 환경 - Prediction & Control 2개 부류가 있다. Prediction MDP를 아는 경우 Model- based Planning : 테이블 기반 방법론, 반복적 정책평가 MDP를 모르는 경우 Model - Free Planning. : 몬테카를로(MC)..

https://nowolver.tistory.com/41 : 강화학습 관련 첫 번째 글 [이브와] DQN 알고리즘과 강화학습, 주가예측 https://search.shopping.naver.com/book/catalog/32436237914?cat_id=50010921&frm=PBOKPRO&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC%EC%9C%BC%EB%A1%9C+%EB%A7%8C%EB%93%9C%EB%8A%94+%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5&NaPm=ct%3Dljas1zg0%7Cci%3D28e319f56e402caa05528ac793 nowolver.tistory.com 1. Q러닝 > 모델 없이 학습하는 강화학습 방법 중 하나로, 마르코프 결정 과..

https://search.shopping.naver.com/book/catalog/32436237914?cat_id=50010921&frm=PBOKPRO&query=%ED%8C%8C%EC%9D%B4%EC%8D%AC%EC%9C%BC%EB%A1%9C+%EB%A7%8C%EB%93%9C%EB%8A%94+%EC%9D%B8%EA%B3%B5%EC%A7%80%EB%8A%A5&NaPm=ct%3Dljas1zg0%7Cci%3D28e319f56e402caa05528ac7938d0a72c058231c%7Ctr%3Dboknx%7Csn%3D95694%7Chk%3Df171a9f34ac2530ca6953ad478afd0ffdc82f319 파이썬으로 만드는 인공지능 : 네이버 도서 네이버 도서 상세정보를 제공합니다. search.sh..