ChatGPT有多大的能力-ChatGPT与提示工程(上)

当前位置:　首页>> 技术小册>> ChatGPT与提示工程(上)

也许，每个人都想有这样一个好朋友：他绝顶聪明，拥有作家、诗人、科学家、历史学家、艺术评论家和编程专家等多重身份，似乎对所有的话题都有深入的了解，能够流畅地使用多种语言与人进行交谈、创作诗歌和故事。最重要的是，他可以做到每天24小时随叫随到，并且友好、有趣、有礼貌、有耐心，永远尽力满足你的需求。

现在，我们每个人都能拥有这样一个好朋友——GPT-4。这个强大的人工智能模型展现出来的各种能力，只能用叹为观止来形容。

1.2.1 GPT-4有多强

GPT-4是ChatGPT(GPT-3.5)的升级版。ChatGPT(GPT-3.5)在2022年11月发布之后已经引起人们的密切关注，并给人们带来了不小的震撼。然而，2023年3月，OpenAI又发布了比GPT-3.5强得多的GPT-4。

GPT-4发布后，微软公司的研究人员发表了题为Sparks of Artificial General Intelligence:Early  Experiments with GPT-4（人工通用智能的火花：GPT-4的早期实验）的论文。论文中证明了GPT-4除了精通语言，还可以解决一些全新且困难的任务，涉及数学、编程、视觉、医学、法律、心理学等领域，而且无须任何特殊提示。而且，在这些任务中，GPT-4的表现非常接近甚至超过了人类水平，远远超过了之前的模型。研究人员甚至认为GPT-4可以被看作通用人工智能(Artificial General Intelligence,AGI)的早期版本。

![](/uploads/images/20231215/88459c89c81537fc7d22aeef15c613f7.png)

此外，在各种专业和学术考试及自然语言处理测试中，GPT-4的表现也达到甚至超越了人类水平。例如，GPT-4在高等数学、法律、生物、化学、英语、高级微观经济学等科目中取得了很好的成绩。在美国的模拟律师资格考试中，GPT-4的成绩位居前10%。

![](/uploads/images/20231215/4e9a0b27907aa844aee3c238d574ab67.png)

然而，GPT-4的能力并不限于做题、考试。如果你用过GPT-4，就知道它有能力又快又好地帮你完成各种任务。换句话说，它是实实在在的生产工具，它不但能与你进行对话，还可以进行自动写作、命题绘画、语言翻译、智能推荐、分析预测等。它能应用在各行各业，如广告、直播、写作、绘图、新闻等。

1.2.2 大语言模型的“涌现”能力

涌现(Emergence)是一个复杂系统中的重要现象，是一种当整个系统的行为无法仅仅通过其部分的行为来预测或解释的情况。简单来说，涌现是“由量变引起质变”，是“整体大于部分的总和”的概念。

更具体地说，涌现通常用于描述由低层次的简单交互产生的高层次的复杂行为的现象。这些高层次的复杂行为不能直接从简单交互中预测出来，但是在特定的条件和规则下，它们可以从这些交互中“涌现”出来。

举个例子，你可以想象一群蚂蚁，每只蚂蚁的行为看似简单——寻找食物，将食物带回蚁巢，避开危险。但是，当我们观察一群蚂蚁时，我们会看到一种非常复杂的行为模式：它们能够建造非常复杂的蚁巢，能够找到最短的路径把食物带回蚁巢，能够协作防御敌人。

![](/uploads/images/20231215/e998d3437bd69e23a159a3f1c0b7f49f.png)

这种蚂蚁群体的行为，就是涌现现象的一个示例。单独一只蚂蚁并不能设计出复杂的蚁巢、找到最短的路径，或者有效地防御敌人。但是，当这群蚂蚁作为一个整体，彼此之间进行相互作用时，就能产生这些复杂的行为。这些复杂的行为是从蚂蚁群体的相互作用中“涌现”出来的，而不是每只蚂蚁单独的能力。

大模型能力的涌现是指在小规模模型中不存在，但在大规模模型中存在的能力。

通常，ChatGPT等大语言模型包含上百亿、上千亿甚至上万亿个参数，它们是在海量文本数据的基础上被训练出来的。ChatGPT等大语言模型是建立在Transformer结构之上的，且多头注意机制层层叠加，最终形成一个极深的神经网络。这些模型主要采用和小模型类似的架构和预训练目标，但是规模扩大了很多——参数量增加了好几个数量级，训练数据和计算量也随之增长。

这使得ChatGPT等大语言模型可以更好地理解语言，并根据给定的上下文生成高质量的回复。模型规模的扩大，使其性能也得以进步。随着时间推移和计算能力的进步，某些能力（如上下文理解）只有模型超过一定规模时才会出现。这也是ChatGPT等大语言模型与小模型最显著的区别——它们涌现出了新的、更强大的语言理解与生成能力。

以下三种新能力将使ChatGPT大有作为。

(1)上下文理解：ChatGPT可以通过输入文本的词序列，生成测试实例的预期输出，而无须额外训练，这表示它学会了理解语境。

(2)遵循指令：ChatGPT可以通过理解简单的自然语言描述，在小型任务上表现良好，这表示它学会了遵循人类的指令。这使其可以不需要样本就能完成新任务，拥有一定的泛化能力。

(3)推理能力：小模型难以解决需要多步推理的复杂任务，而ChatGPT可以利用涉及中间推理步骤的提示，解决此类任务并得出答案。这表示它具有一定的逻辑推理能力，这种能力可能来自模型训练。

简而言之，ChatGPT等大语言模型通过模型规模的扩大，获得了更强的语言理解、语境感知、人机交互、逻辑推理等能力。这使其不再是简单的统计学习工具，而更像是一个可以理解语言和世界的“助手”，这也是这类大语言模型最令人兴奋的地方。

如果未来能进一步扩大模型规模，融入更多真实世界的知识， ChatGPT等大语言模型的智能水平将会大幅提升，这使得人工智能取得更大进步成为可能。

1.2.3“GPT们”会抢走我们的工作吗

“GPT们”会抢走我们的工作吗？虽然很不愿意承认，但是这个问题的答案很可能是“会”。2023年3月，OpenAI发布了一篇研究论文GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models（GPTsareGPTs：大语言模型对劳动力市场的潜在影响的早期研究），调查ChatGPT等大语言模型可能对劳动力市场产生的影响。[5]

这篇论文的研究主要有以下结论。

(1)绝大多数职业在某种程度上都受到大语言模型的影响，美国约80%的劳动者至少有10%的工作任务可能受到ChatGPT等大语言模型的影响，其中约19%的员工可能有50%的工作任务会受到影响。

(2)这种影响涉及各个工资水平的职业。除去部分特殊情况，从整体来看，工资水平越高的职业，受ChatGPT的冲击程度越大。

论文中还有更多详细结论，如果你对这个话题感兴趣，可以阅读原始论文。