- 深度强化学习实践(原书第2版)
- (俄)马克西姆·拉潘
- 156字
- 2025-02-21 23:36:01
5.7 总结
恭喜你已经朝着理解现代、最新的RL方法又迈出了一步!本章介绍了RL中广泛使用的一些非常重要的概念:状态价值、动作价值以及各种形式的Bellman方程。
还介绍了价值迭代方法,它是Q-learning领域中非常重要的组成部分。最后,介绍了价值迭代如何提升FrozenLake解决方案。
下一章将探讨深度Q-network,它于2013年在许多Atari 2600游戏中击败人类,从而开始了深度RL的革命。