小册描述
目录
- 1.1 大语言模型的基本概念
- 1.2 大语言模型的发展历程
- 1.3 大语言模型的构建流程
- 2.1 Transformer结构
- 2.1.1 嵌入表示层
- 2.1.2 注意力层
- 2.1.3 前馈层
- 2.1.4 残差连接与层归一化
- 2.1.5 编码器和解码器结构
- 2.2 生成式预训练语言模型GPT
- 2.2.1 无监督预训练
- 2.2.2 有监督下游任务微调
- 2.2.3 基于HuggingFace的预训练语言模型实践
- 2.3 大语言模型的结构
- 2.3.1 LLaMA的模型结构
- 2.3.2 注意力机制优化
- 3.1 数据来源
- 3.1.1 通用数据
- 3.1.2 专业数据
- 3.2 数据处理
- 3.2.1 质量过滤
- 3.2.2 冗余去除
- 3.2.3 隐私消除
- 3.2.4 词元切分
- 3.3 数据影响分析
- 3.3.1 数据规模
- 3.3.2 数据质量
- 3.3.3 数据多样性
- 3.4 开源数据集
- 3.4.1 Pile
- 3.4.2 ROOTS
- 3.4.3 RefinedWeb
- 3.4.4 SlimPajama
- 4.1 分布式训练概述
- 4.2 分布式训练的并行策略
- 4.2.1 数据并行
- 4.2.2 模型并行
- 4.2.3 混合并行
- 4.2.4 计算设备内存优化
- 4.3 分布式训练的集群架构
- 4.3.1 高性能计算集群的典型硬件组成
- 4.3.2 参数服务器架构
- 4.3.3 去中心化架构
- 4.4 DeepSpeed实践
- 4.4.1 基础概念
- 4.4.2 LLaMA分布式训练实践