강화학습 기본 개념
강화학습에 필요한 용어 및 이론 정리. Made by 이승현, 곽수인, 유윤제
Notation
Markov Decision Process
마르코프 결정 과정은 유한 상태의 집합에서 정의된다. 유한하지 않으면 은닉 마르코프 결정이라고 한다.

Value functions
State value function

Action value function

Optimal Value Function

그렇다면 어떻게 슬라이딩 퍼즐에 이 문제를 적용할 수 있을까?
Last updated
Was this helpful?