N-puzzle problem 설계하기
Q-learning 적용을 목표로 한다.
Sliding Puzzle은 연속적? 불연속적?


State와 Action을 정의해보자.
여기서 잠깐. Monte Carlo VS Temporal Difference
Monte Carlo 이란?
Temporal Difference 이란?

Question. 슬라이딩 퍼즐 문제는 MC일까 TD로 해결할까?
On-policy VS Off-policy


Off-policy with Q-learning


N-puzzle Reward??
1. Puzzle을 움직였을 때 밖으로 나가면 패널티를 준다.
2. Manhatten 거리를 Reward로 준다.

3. 퍼즐 정렬완료시 보상을 준다.
* Deep Q-learning 으로 문제 해결하기

** 문제점
** 논문거리 : 도전해보세요!
Last updated
Was this helpful?