小册描述
目录
- 5.1深度 Q网络
- 5.1.1智能策略
- 5.1.2策略函数与Q表格
- 5.1.3策略函数与Q网络
- 5.2 DQN算法介绍
- 5.2.1经验回放
- 5.2.2目标网络
- 5.3 DQN算法
- 5.4 DoubleDQN
- 5.4.1 Double DQN背景
- 5.4.2双 Q网络结构
- 5.4.3 Double DQN算法伪代码
- 5.5 Dueling DQN
- 5.5.1 Dueling DQN算法框架简介
- 5.5.2 Dueling DQN算法核心思想
- 5.6 Distributional DQN
- 5.7 DQN的其他改进
- 5.7.1优先级经验回放
- 5.7.2噪声网络 DQN
- 5.7.3多步(Multi-step)DQN134
- 5.7.4分布式训练
- 5.7.5 DQN算法改进
- 5.7.6 DQN算法总结
- 5.8.1智能投资决策系统
- 5.8.2核心代码解析
- 5.8.3模型训练
- 5.8.4模型测试
- 6.1策略梯度方法简介
- 6.1.1 DQN的局限
- 6.1.2策略梯度方法分类
- 6.2随机性策略梯度算法
- 6.2.1轨迹数据
- 6.2.2目标函数
- 6.2.3梯度计算
- 6.2.4更新策略
- 6.3随机性策略梯度定理
- 6.3.1随机性策略梯度定理介绍
- 6.3.2随机性策略梯度定理分析
- 6.4策略梯度优化几种实现方法
- 6.4.1策略梯度优化理论
- 6.4.2完整轨迹的累积奖励回报
- 6.4.3部分轨迹的累积奖励回报
- 6.4.4常数基线函数
- 6.4.5基于状态的基线函数
- 6.4.6基于状态值函数的基线函数
- 6.4.7基于自举方法的梯度估计
- 6.4.8基于优势函数的策略梯度优化
- 6.5深度策略梯度优化算法
- 6.6置信阈策略优化算法
- 6.6.1置信阈策略优化算法介绍
- 6.6.2重要性采样
- 6.6.3置信阈策略优化算法核心技巧
- 6.6.4置信阈策略优化算法伪代码
- 6.7近端策略优化算法
- 6.7.1近端策略优化算法介绍
- 6.7.2近端策略优化算法核心技巧
- 6.7.3近端策略优化算法(PPO2)伪代码
- 6.8.1模型参数
- 6.8.2模型训练
- 6.8.3模型测试