首页
技术小册
AIGC
面试刷题
技术文章
MAGENTO
云计算
视频课程
源码下载
PDF书籍
「涨薪秘籍」
登录
注册
一分钟认识ChatGPT
GPT训练数据集介绍
ChatGPT的极简理解
开源社区的进展
如何识别ChatGPT的真假
ChatGPT页面功能介绍
注册ChatGPT账户
开始向ChatGPT提问
摘要及重命名
连续提问和重新生成的作用
赞和踩的作用
提前终止
ChatGPT的字数限制
服务状态页面
ChatGPT的法律风险
互联网信息服务深度合成管理规定
ChatGPT的法律过滤情况示例
如何识别来自ChatGPT的文本输出
ChatGPT避坑指南
《青玉案》词创作
不同相似度算法的分值介绍
生成正则表达式
ChatGPT场景案例
生成文本
总结文本
逆向prompt
阅读理解出题
思维链生成
情感分类
词格分类
数据集模拟生成
生成复杂密码
多语言翻译
当前位置:
首页>>
技术小册>>
ChatGPT通关之路(上)
小册名称:ChatGPT通关之路(上)
所有人工智能算法都会分为训练和推理两步。算法的效果好坏,很大程度上取决于训练数据本身的质量。ChatGPT所用的训练数据,OpenAI公司没有单独公布过细节。不过考虑到ChatGPT是在前序GPT算法基础上发展而来的,我们可以侧面分析GPT-3的训练数据集情况。 人工智能领域知名人士Alan D.Thompson博士发表过一篇文章,介绍在大语言模型领域目前常用的数据集情况。其中,根据OpenAI论文公开的token数据情况,推测了GPT-3所用训练数据集大小一共有753.4GB。具体分布如下。 维基百科:11.4GB。维基百科是世界著名的免费、多语种、在线百科全书,有超过30万名志愿者在贡献内容。一般参与训练的是其中的英文版部分,包括662万篇文章,超过42亿个单词。这其中传记类占27.8%,地理类占17.7%,文化艺术类占15.8%,历史类占9.9%,生物医学占7.8%,体育类占6.5%,工商类占4.8%,理工和数学类占3.5%。 Gutenberg Book(古腾堡书籍语料库):21GB。这是电子书发明人Michael Hart创建的项目,也是世界上第一个免费电子书网站。网站收录了各种语言文字的书籍,收录12种语言超过50本,中文书籍500本,不过基本都是古籍。一般用于训练的是语料库中精选的SPGC版本。因为是在线网站,我们可以直接看到按日排列的前一百名书籍清单。比如,2023年3月10日,排名第一的书籍为莎士比亚的《罗密欧与朱丽叶》,而前100名中唯一的中文书籍,很巧合正是第88名汤显祖的《牡丹亭》。 Bibliotik Journey:101GB。 Bib是互联网最大的电子书站点,通过P2P方式分发下载,种子数量超50万。EleutherAI实验室在2021年为了训练GPT-Neo大模型,整合精选了该电子书数据集,占EleutherAI实验室最后使用的Pile数据集中全部数据的12.07%。 Reddit links:50GB。 Reddit是一个流行的社交媒体平台,WebText数据集从Reddit平台上爬取了所有三个赞以上的出站链接的网页,代表了流行内容的风向标。 Common Crawl:570GB。 这是一个从2011年开始一直在爬取的数据集,包括原始网页、元数据和提取的文本,存储在AWS上,总量超1PB,并以每月20TB的速度持续新增。一般用来训练的只是Common Crawl中的C4部分。从数据分析来看,除谷歌专利网站占0.48%比例偏高以外,其他来源网站的占比都比较平均,维持在0.04%以下。 OpenAI自身公开的训练数据分语种统计结果(https://github.com/openai/gpt-3/blob/master/dataset_statistics/languages_by_word_count.csv)中,训练数据集里英语单词占比92%。此外,法语占1.81%,德语占1.47%,其他语种均在1%以下,汉语比例为0.1%。但实际ChatGPT的各语种问答能力,远超OpenAI自身的预料之外。 也有其他方面的消息称,GPT-3的训练语料大小高达45TB。两个数据的差距实在太大,有可能45TB是上述数据来源未精选之前的总大小之和。 这些数据集,能多大程度上代表互联网呢?网站(www.worldwidewebsize.com)长期跟踪谷歌、必应等搜索引擎上可检索到的互联网总网页数量,到目前为止,总索引网页数量为58.5亿页。还有另一份针对网页HTML大小的长期跟踪,目前互联网网页的平均大小为1.2MB。估算可知,整个互联网的文本大小为7000TB。去除各种HTML标签,按照二八法则大致去掉长尾的雷同内容,我们可以武断地认为,整个互联网上的文本大概会是1000TB。但直接运用这个1000TB数据训练AI对话,未必是最佳方案。多年前,微软小冰“学会”骂人的事故就是明证。 此外,由于ChatGPT的思维链能力需要刻意锻炼逻辑能力,训练数据可能还有来自GitHub的代码数据集、StackExchange的编程问答数据集等。 我们可以看到,目前ChatGPT的训练数据,基本来自英语互联网世界,对中文互联网数据的理解有所缺失。这也是中国互联网公司巨头的一次机会。但中文互联网上也确实还缺少如此量级、开放且标准化的数据集语料,甚至可能连对应的形态都不存在。比如:中国几乎没有reddit、hackernews这类以出站链接和问答评论为主的社交媒体平台。现存的中文语料库,几乎都来自各大高校和科研机构,如北京语言大学BBC、清华大学OpenSLR、北京大学CCL、南京农业大学NEPD、智源研究院WuDaoCorpora等。复旦大学发布Moss人工智能对话机器人时,就坦言自己完全是使用英文互联网世界的标准语料,并无特殊的中文数据。 科研机构很难长期维护一份实时更新的数据集,因此这一方面依赖于中国互联网企业自身的努力,比如:百度百科、知乎问答提供优选内容,京东、当当免费电子书、知网免费期刊、微信朋友圈开放出站链接、微博热搜榜及评论的整合等。另一方面也考量监管层的探索。中国证监会科技监管局局长姚前,日前在《中国金融》2023年第6期发表署名文章《ChatGPT类大模型训练数据的托管与治理》,提出要抓住高质量数据这个“牛鼻子”,对高质量数据的供给,“要统筹兼顾自立自强和对外开放。可考虑对Wikipedia、Reddit等特定数据源建立过滤后的境内镜像站点,供国内数据处理者使用”。
上一篇:
一分钟认识ChatGPT
下一篇:
ChatGPT的极简理解
该分类下的相关小册推荐:
AIGC原理与实践:零基础学大语言模型(四)
巧用ChatGPT快速搞定数据分析
AIGC原理与实践:零基础学大语言模型(二)
ChatGPT写作超简单
区块链权威指南(上)
AI Agent 智能体实战课
快速部署大模型:LLM策略与实践(上)
ChatGPT大模型:技术场景与商业应用(中)
GitHub Copilot 实践
大模型应用解决方案-基于ChatGPT(上)
玩转ChatGPT:秒变AI提问和追问高手(上)
文心一言:你的百倍增效工作神器