목록formula (1)
On the journey of
[Deep Reinforcement Learning Hands On] Chapter.04
Deep Reinforcement Learning 내용정리는 파알 신입기수 때(...무려 1년 전) 공부하면서 노션에 정리한 내용을 복습하며 티스토리로 옮겨온 내용입니다. 때문에 학회 노션에 최적화된 구조와 내용임을 밝혀둡니다 모종의 이유로 학회활동 당시 Chapter 3는 공부하지 않았었는데 왜 그랬는지는 잘 모르겠습니다 The Cross-Entropy Method DQN or Advantage Actor-Critic과 같은 다른 도구보다 훨씬 덜 유명하지만, 자체적인 강점이 있다 단순성: 교차 엔트로피 방법은 매우 간단 → 직관적인 방법 양호한 수렴 복잡한 다단계 정책을 학습하고 발견할 필요가 없음 rewards가 빈번한 짧은 에피소드를 가진 단순한 환경에서는 교차 엔트로피가 일반적으로 매우 잘 작동..
Experiences & Study/이브와(KIBWA)
2023. 8. 4. 09:39