小册描述
目录
- 10.1深度强化学习背景
- 10.1.1源于学科交叉
- 10.1.2用于序贯决策
- 10.1.3强于深度学习
- 10.2深度强化学习简史
- 10.2.1游戏控制崭露头角
- 10.2.2 AlphaGo风靡全球
- 10.2.3通用智能备受期待
- 10.3深度强化学习分类
- 10.3.1基于值函数和基于策略函数的深度强化学习
- 10.3.2基于模型和无模型的深度强化学习
- 10.3.3异策略和同策略学习
- 10.4深度强化学习面临的挑战
- 10.4.1样本效率
- 10.4.2灾难性遗忘
- 10.4.3虚实映射鸿沟
- 10.4.4有效表征学习
- 10.4.5可拓展性与规模化
- 10.4.6延迟奖励
- 10.4.7稀疏奖励
- 10.4.8探索和利用
- 10.4.9复杂动态环境
- 10.5深度强化学习前沿
- 10.5.1多智能体深度强化学习
- 10.5.2深度逆向强化学习
- 10.5.3模仿学习
- 10.5.4行为克隆
- 10.5.5图强化学习
- 10.6深度强化学习实践
- 10.6.1深度强化学习建模框架
- 10.6.2深度强化学习模型的核心模块