강화학습 — 2017
2편의 논문
arXiv15,000+
Proximal Policy Optimization Algorithms
근접 정책 최적화 알고리즘
John Schulman, Filip Wolski, Prafulla Dhariwal et al. (2017)
arXiv5,000+
Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm
범용 강화학습 알고리즘의 자기대국으로 체스와 쇼기 마스터하기
David Silver, Thomas Hubert, Julian Schrittwieser et al. (2017)