5.7 总结_深度强化学习实践（原书第2版）-QQ阅读现言女生网

书名：深度强化学习实践（原书第2版）
作者名：(俄)马克西姆·拉潘
本章字数：156字
更新时间：2025-02-21 23:36:01

5.7　总结

恭喜你已经朝着理解现代、最新的RL方法又迈出了一步！本章介绍了RL中广泛使用的一些非常重要的概念：状态价值、动作价值以及各种形式的Bellman方程。

还介绍了价值迭代方法，它是Q-learning领域中非常重要的组成部分。最后，介绍了价值迭代如何提升FrozenLake解决方案。

下一章将探讨深度Q-network，它于2013年在许多Atari 2600游戏中击败人类，从而开始了深度RL的革命。

上一章目录下一章