'강화학습' 태그의 글 목록

[강화학습 이론] 몬테카를로 예측 (Monte-Carlo Prediction)

2021.05.13

책: wikibook.co.kr/rlrev/ 파이썬과 케라스로 배우는 강화학습 (개정판): 내 손으로 직접 구현하는 게임 인공지능 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명합니다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지기 시작했다. 하지만 처음 강화학습을 공부하는 wikibook.co.kr 참고: dnddnjs.gitbooks.io/rl/content/ ※본문 내용은 위의 자료들을 요약·정리한 것이 포함되어있습니다. 강화학습의 예측과 제어 이전 포스팅에서 DP에 대해 설명했는데 DP는 벨만 방정식을 통해 가치함수와 정책을 업데이트시켜 최적의 정책을 찾아가는 방식이었다. 이 방법은 MDP의 모든 정보를 알고 있어야 풀 수 있다. 특히 환경의 모델이라고 부르는 "..

📒 강화학습

[강화학습 이론] 벨만 기대 방정식과 벨만 최적 방정식

2021.05.12

책: wikibook.co.kr/rlrev/ 파이썬과 케라스로 배우는 강화학습 (개정판): 내 손으로 직접 구현하는 게임 인공지능 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명합니다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지기 시작했다. 하지만 처음 강화학습을 공부하는 wikibook.co.kr 참고: dnddnjs.gitbooks.io/rl/content/ ※본문 내용은 위의 자료들을 요약·정리한 것이 포함되어있습니다. 벨만 기대 방정식 벨만 기대 방정식은 현재 상태의 가치함수와 다음 상태의 가치함수 사이의 관계를 식으로 나타낸 것이다. 벨만 기대 방정식은 가치함수식에서 유도된 것인데 과정은 다음과 같다. 우선, 가치함수의 정의에서 반환값 Gt를 풀어서 표기한 것..

📒 강화학습

[강화학습 이론] 가치함수와 Q함수(상태 가치함수와 행동 가치함수)

2021.05.11

wikibook.co.kr/rlrev/ 파이썬과 케라스로 배우는 강화학습 (개정판): 내 손으로 직접 구현하는 게임 인공지능 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명합니다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지기 시작했다. 하지만 처음 강화학습을 공부하는 wikibook.co.kr ※본문 내용은 위의 책들을 요약·정리한 것이 포함되어있습니다. 저번 포스팅에서 MDP를 통해 순차적 행동 결정 문제를 수학적으로 정의했다. 이제 에이전트가 최적 정책을 찾아 문제를 해결하면 되는데, 에이전트가 특정 상태에서 행동을 선택하는 기준이 되는 것이 가치함수이다. 가치함수(상태 가치함수) 강화 학습에서 학습의 기준이 되는 것이 보상이라고 전 포스팅에서 언급했었다. 보상을 ..

📒 강화학습

[강화학습 이론] 강화학습이란? / MDP와 강화학습 용어

2021.04.29

wikibook.co.kr/rlrev/ 파이썬과 케라스로 배우는 강화학습 (개정판): 내 손으로 직접 구현하는 게임 인공지능 강화학습의 기초부터 최근 알고리즘까지 친절하게 설명합니다! ‘알파고’로부터 받은 신선한 충격으로 많은 사람들이 강화학습에 관심을 가지기 시작했다. 하지만 처음 강화학습을 공부하는 wikibook.co.kr wikibook.co.kr/tensorflow-mlagents/ 텐서플로와 유니티 ML-Agents로 배우는 강화학습: 다섯 가지 게임을 제작하며 살펴보는 심층 강화 강화학습 환경을 제작하고 심층강화학습 알고리즘까지 직접 구현한다! 알파고 이후 강화학습이 많은 사람들에게 관심을 받기 시작했다. 더불어 직접 시뮬레이션 환경을 제작하여 강화학습을 wikibook.co.kr ※본문 내..

📒 etc.

AirSim on Unity / windows

2021.03.03

*버전 Unity 2019.3.12 github.com/microsoft/AirSim/blob/master/docs/Unity.md microsoft/AirSim Open source simulator for autonomous vehicles built on Unreal Engine / Unity, from Microsoft AI & Research - microsoft/AirSim github.com 아래 내용은 위의 링크를 참조했다. AirSim 다운 / 빌드 1. Developer Command Prompt for VS 2019 실행 2. AirSim 다운 git clone http://github.com/Microsoft/AirSim.git 위의 명령어로 clone 해도 되고, github.co..

[강화학습 이론] 몬테카를로 예측 (Monte-Carlo Prediction)

[강화학습 이론] 벨만 기대 방정식과 벨만 최적 방정식

[강화학습 이론] 가치함수와 Q함수(상태 가치함수와 행동 가치함수)

[강화학습 이론] 강화학습이란? / MDP와 강화학습 용어

AirSim on Unity / windows

티스토리툴바