강화학습 기본 개념

강화학습에 필요한 용어 및 이론 정리. Made by 이승현, 곽수인, 유윤제

Notation

Markov Decision Process

마르코프 결정 과정은 유한 상태의 집합에서 정의된다. 유한하지 않으면 은닉 마르코프 결정이라고 한다.

Value functions

State value function

Action value function

Optimal Value Function

그렇다면 어떻게 슬라이딩 퍼즐에 이 문제를 적용할 수 있을까?

NextN-puzzle problem 설계하기

Last updated 6 years ago

Was this helpful?