3 처지: 마르코프 결정 과정, 강화 학습, 기댓값.
마르코프 결정 과정
마르코프 결정 과정(Markov Decision Process)는 의사결정 과정을 모델링하는 수학적인 틀을 제공.
새로운!!: Q 러닝와 마르코프 결정 과정 · 더보기 »
강화 학습
강화 학습(Reinforcement learning)은 기계 학습의 한 영역이.
새로운!!: Q 러닝와 강화 학습 · 더보기 »
기댓값
확률론에서, 확률 변수의 기댓값(期待값)은 각 사건이 벌어졌을 때의 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값이.
여기로 리디렉션합니다
Q-러닝.