小册描述
目录
- 5.1 提示学习和语境学习
- 5.1.1 提示学习
- 5.1.2 语境学习
- 5.2 高效模型微调
- 5.2.1 LoRA
- 5.2.2 LoRA的变体
- 5.3 模型上下文窗口扩展
- 5.3.1 具有外推能力的位置编码
- 5.3.2 插值法
- 5.4 指令数据的构建
- 5.4.1 手动构建指令
- 5.4.2 自动构建指令
- 5.4.3 开源指令数据集
- 5.5 DeepSpeed-Chat SFT实践
- 5.5.1 数据预处理
- 5.5.2 自定义模型
- 5.5.3 模型训练
- 5.5.4 模型推理
- 6.1 基于人类反馈的强化学习
- 6.1.1 强化学习概述
- 6.1.2 强化学习与有监督学习的区别
- 6.1.3 基于人类反馈的强化学习流程
- 6.2 奖励模型
- 6.2.1 数据收集
- 6.2.2 模型训练
- 6.2.3 开源数据
- 6.3 近端策略优化
- 6.3.1 策略梯度
- 6.3.2 广义优势估计
- 6.3.3 近端策略优化算法
- 6.4 MOSS-RLHF实践
- 6.4.1 奖励模型训练
- 6.4.2 PPO微调
- 7.1 推理规划
- 7.1.1 思维链提示
- 7.1.2 由少至多提示
- 7.2 综合应用框架
- 7.2.1 LangChain框架核心模块
- 7.2.2 知识库问答系统实践
- 7.3 智能代理
- 7.3.1 智能代理的组成
- 7.3.2 智能代理的应用实例
- 7.4 多模态大语言模型
- 7.4.1 模型架构
- 7.4.2 数据收集与训练策略
- 7.4.3 多模态能力示例
- 7.5 大语言模型推理优化
- 7.5.1 FastServe框架
- 7.5.2 vLLM推理框架实践
- 8.1 模型评估概述
- 8.2 大语言模型评估体系
- 8.2.1 知识与能力
- 8.2.2 伦理与安全
- 8.2.3 垂直领域评估
- 8.3 大语言模型评估方法
- 8.3.1 评估指标
- 8.3.2 评估方法
- 8.4 大语言模型评估实践
- 8.4.1 基础模型评估
- 8.4.2 SFT模型和RL模型评估