GPT训练数据集介绍-ChatGPT通关之路(上)

当前位置:　首页>> 技术小册>> ChatGPT通关之路(上)

所有人工智能算法都会分为训练和推理两步。算法的效果好坏，很大程度上取决于训练数据本身的质量。ChatGPT所用的训练数据，OpenAI公司没有单独公布过细节。不过考虑到ChatGPT是在前序GPT算法基础上发展而来的，我们可以侧面分析GPT-3的训练数据集情况。

人工智能领域知名人士Alan D.Thompson博士发表过一篇文章，介绍在大语言模型领域目前常用的数据集情况。其中，根据OpenAI论文公开的token数据情况，推测了GPT-3所用训练数据集大小一共有753.4GB。具体分布如下。

维基百科：11.4GB。维基百科是世界著名的免费、多语种、在线百科全书，有超过30万名志愿者在贡献内容。一般参与训练的是其中的英文版部分，包括662万篇文章，超过42亿个单词。这其中传记类占27.8%，地理类占17.7%，文化艺术类占15.8%，历史类占9.9%，生物医学占7.8%，体育类占6.5%，工商类占4.8%，理工和数学类占3.5%。

Gutenberg Book（古腾堡书籍语料库）：21GB。这是电子书发明人Michael Hart创建的项目，也是世界上第一个免费电子书网站。网站收录了各种语言文字的书籍，收录12种语言超过50本，中文书籍500本，不过基本都是古籍。一般用于训练的是语料库中精选的SPGC版本。因为是在线网站，我们可以直接看到按日排列的前一百名书籍清单。比如，2023年3月10日，排名第一的书籍为莎士比亚的《罗密欧与朱丽叶》，而前100名中唯一的中文书籍，很巧合正是第88名汤显祖的《牡丹亭》。

Bibliotik Journey:101GB。 Bib是互联网最大的电子书站点，通过P2P方式分发下载，种子数量超50万。EleutherAI实验室在2021年为了训练GPT-Neo大模型，整合精选了该电子书数据集，占EleutherAI实验室最后使用的Pile数据集中全部数据的12.07%。

Reddit links:50GB。 Reddit是一个流行的社交媒体平台，WebText数据集从Reddit平台上爬取了所有三个赞以上的出站链接的网页，代表了流行内容的风向标。

Common Crawl:570GB。这是一个从2011年开始一直在爬取的数据集，包括原始网页、元数据和提取的文本，存储在AWS上，总量超1PB，并以每月20TB的速度持续新增。一般用来训练的只是Common Crawl中的C4部分。从数据分析来看，除谷歌专利网站占0.48%比例偏高以外，其他来源网站的占比都比较平均，维持在0.04%以下。

OpenAI自身公开的训练数据分语种统计结果(https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_word_count.csv)中，训练数据集里英语单词占比92%。此外，法语占1.81%，德语占1.47%，其他语种均在1%以下，汉语比例为0.1%。但实际ChatGPT的各语种问答能力，远超OpenAI自身的预料之外。

也有其他方面的消息称，GPT-3的训练语料大小高达45TB。两个数据的差距实在太大，有可能45TB是上述数据来源未精选之前的总大小之和。

这些数据集，能多大程度上代表互联网呢？网站(www.worldwidewebsize.com)长期跟踪谷歌、必应等搜索引擎上可检索到的互联网总网页数量，到目前为止，总索引网页数量为58.5亿页。还有另一份针对网页HTML大小的长期跟踪，目前互联网网页的平均大小为1.2MB。估算可知，整个互联网的文本大小为7000TB。去除各种HTML标签，按照二八法则大致去掉长尾的雷同内容，我们可以武断地认为，整个互联网上的文本大概会是1000TB。但直接运用这个1000TB数据训练AI对话，未必是最佳方案。多年前，微软小冰“学会”骂人的事故就是明证。

此外，由于ChatGPT的思维链能力需要刻意锻炼逻辑能力，训练数据可能还有来自GitHub的代码数据集、StackExchange的编程问答数据集等。

我们可以看到，目前ChatGPT的训练数据，基本来自英语互联网世界，对中文互联网数据的理解有所缺失。这也是中国互联网公司巨头的一次机会。但中文互联网上也确实还缺少如此量级、开放且标准化的数据集语料，甚至可能连对应的形态都不存在。比如：中国几乎没有reddit、hackernews这类以出站链接和问答评论为主的社交媒体平台。现存的中文语料库，几乎都来自各大高校和科研机构，如北京语言大学BBC、清华大学OpenSLR、北京大学CCL、南京农业大学NEPD、智源研究院WuDaoCorpora等。复旦大学发布Moss人工智能对话机器人时，就坦言自己完全是使用英文互联网世界的标准语料，并无特殊的中文数据。

科研机构很难长期维护一份实时更新的数据集，因此这一方面依赖于中国互联网企业自身的努力，比如：百度百科、知乎问答提供优选内容，京东、当当免费电子书、知网免费期刊、微信朋友圈开放出站链接、微博热搜榜及评论的整合等。另一方面也考量监管层的探索。中国证监会科技监管局局长姚前，日前在《中国金融》2023年第6期发表署名文章《ChatGPT类大模型训练数据的托管与治理》，提出要抓住高质量数据这个“牛鼻子”，对高质量数据的供给，“要统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点，供国内数据处理者使用”。

该分类下的相关小册推荐：

深度强化学习--算法原理与金融实践(五)

AI时代产品经理：ChatGPT与产品经理(中)

人工智能技术基础(上)

AI大模型入门指南

NLP入门到实战精讲(下)

ChatGPT原理与实战：大型语言模型(下)

人工智能原理、技术及应用(下)

玩转ChatGPT：秒变AI提问和追问高手(上)

ChatGPT大模型：技术场景与商业应用(中)

ChatGPT使用指南

一本书读懂AIGC提示词

区块链权威指南(上)