小册描述
目录
- 7.1确定性策略梯度方法应用场景
- 7.2策略梯度方法比较
- 7.3确定性策略函数的深度神经网络表示
- 7.4确定性策略梯度定理
- 7.5深度确定性策略梯度算法
- 7.5.1算法核心介绍
- 7.5.2经验回放
- 7.5.3目标网络
- 7.5.4参数软更新
- 7.5.5深度确定性策略梯度算法伪代码
- 7.6孪生延迟确定性策略梯度算法
- 7.6.1 TD3算法介绍
- 7.6.2 TD3算法的改进
- 7.6.3 TD3算法伪代码
- 7.7.1核心代码解析
- 7.7.2模型训练
- 7.7.3模型测试
- 8.1 Actor-Critic简介
- 8.2 AC算法
- 8.2.1 AC算法介绍
- 8.2.2 AC算法参数更新
- 8.2.3 AC算法伪代码
- 8.3 A2C算法190
- 8.3.1 A2C算法介绍
- 8.3.2优势函数和基线函数
- 8.3.3 A2C算法伪代码
- 8.4 A3C算法193
- 8.4.1 A3C算法介绍
- 8.4.2 A3C算法的改进和优化
- 8.4.3 A3C算法伪代码
- 8.5 SAC算法
- 8.5.1 SAC算法介绍
- 8.5.2智能体动作多样性
- 8.5.3 SAC算法理论核心
- 8.5.4 SAC算法伪代码
- 8.6.1核心代码解析
- 8.6.2模型训练
- 8.6.3模型测试
- 9.1学习与规划
- 9.2基于模型的深度强化学习
- 9.2.1深度强化学习模型分类207
- 9.2.2深度强化学习中的学习模块
- 9.2.3深度强化学习中的规划模块
- 9.3 Dyna框架
- 9.3.1 Dyna框架介绍
- 9.3.2 Dyna框架的模型学习
- 9.4 Dyna-Q算法
- 9.4.1 Dyna-Q算法介绍
- 9.4.2 Dyna-Q算法伪代码
- 9.5 Dyna-Q改进
- 9.6 Dyna-2框架
- 9.7.1编程实践模块介绍
- 9.7.2 Gym
- 9.7.3强化学习代码库