Q-Learning: Reinforcement Learning Explained - Q-Learning, 강화학습, 알고리즘, 상태, 행동, 보상, 탐험, 활용, 가치함수, 정책, 마르코프 결정 과정, 학습률, 디스카운트, 최적화 미리보기