강화학습 기본 개념

강화학습에 필요한 용어 및 이론 정리. Made by 이승현, 곽수인, 유윤제

Notation

Markov Decision Process

마르코프 결정 과정은 유한 상태의 집합에서 정의된다. 유한하지 않으면 은닉 마르코프 결정이라고 한다.

Markov Chain reward process

Value functions

State value function

Action value function

Optimal Value Function

Optimal Value Function

그렇다면 어떻게 슬라이딩 퍼즐에 이 문제를 적용할 수 있을까?

Last updated

Was this helpful?