MC

[강화학습 이론] 몬테카를로 예측 (Monte-Carlo Prediction)

2021.05.13

책: wikibook.co.kr/rlrev/ 파이썬과 케라스로 배우는 강화학습 (개정판): 내 손으로 직접 구현하는 게임 인공지능 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명합니다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지기 시작했다. 하지만 처음 강화학습을 공부하는 wikibook.co.kr 참고: dnddnjs.gitbooks.io/rl/content/ ※본문 내용은 위의 자료들을 요약·정리한 것이 포함되어있습니다. 강화학습의 예측과 제어 이전 포스팅에서 DP에 대해 설명했는데 DP는 벨만 방정식을 통해 가치함수와 정책을 업데이트시켜 최적의 정책을 찾아가는 방식이었다. 이 방법은 MDP의 모든 정보를 알고 있어야 풀 수 있다. 특히 환경의 모델이라고 부르는 "..

[강화학습 이론] 몬테카를로 예측 (Monte-Carlo Prediction)

티스토리툴바