从“鹦鹉学舌”到“硅基智能”｜如何释放 LLM 的潜力？

文章来源：企鹅号 - 边缘计算之家

从 2022 年 ChatGPT 发布开始，科技世界的聊天话题总是离不开 AI，很多原本不从事 AI 业务的公司也开始研究大语言模型，进行新时期的业务转型。AI 像“洪水猛兽”般向全世界涌来。

ChatGPT 从发布到日活用户突破 100 万，仅仅只用了五天时间，直至今日，ChatGPT 已经拥有了超过 18000 万的活跃用户。那么，大语言模型到底是怎么工作的呢？如何才能与大语言模型好好相处呢？

随机鹦鹉

如何开口

大语言模型并没有蕴含什么魔法，无论是从计算机科学底层原理还是其所基于的数学原理来看，它实际上还是一只“随机鹦鹉”，这也是业界目前很流行的一种说法。它就跟学人讲话的鹦鹉一样，并不清楚文字背后的含义，只是因为一直在听到我们所说的话（被高频投喂了这些语料），而硬性地把它重复、组合然后发音表达出来。

它是如何做到的呢？这就需要从大语言模型的底层宇宙说起。

在讨论大语言模型时，人们通常都会提到「Token」。在自然语言处理领域，Token 是一种常见的概念，它是文本处理的最小基本单元。为了能让计算机更好地处理和识别这些字符，我们需要对我们的语言进行编码，在进行自然语言处理时，将输入的文本拆分为一个个 Token，并以此进行后续的文本分析及应用。Token 对应的可以是一个中文字符、一个英文单词、一个标点符号、一个数字等等。

以 OpenAI 为例，“你”对应的数字是“57668”，那么当模型遇到“你”时，它就会将其映射到数字 57668。处理完输入的全部文本后，就会得到得到一串连续的，与输入文本对应的数字，这个编码的过程，就是为了能将我们的语言转换成计算机可理解的数学表达，通常也会被称为「向量化」。而这一串数字就会作为模型的输入，然后大语言模型再根据输入计算输出，这就是大语言模型解析和理解文本的方式。这也是为什么会说，大语言模型并不能真正理解原始文本，因为 Token 是我们语言的数学表达。

为了能让这只“鹦鹉”说话，还需要让“鹦鹉学舌”，而“学舌”就是大语言模型思考的过程，这就需要提到 2017 年那篇对自然语言处理领域产生了深远影响的论文《Attention Is All You Need》。GPT 中的“T”代表的“Transformer”就是在这篇论文中提出并且实现的，最终促成了 GPT 和 BERT 这类语言模型的诞生，它也成为了许多自然语言处理任务的首选模型。它的出现，它的出现，将大语言模型的思考过程变成了一个文字接龙游戏（也被称为自回归生成）。

通常我们在进行聊天、即兴演讲、自由答题时，并不像读书一样对于讲过的话和即将讲的话有一个全景的认知，而是根据习惯逐字逐句想出来的。大语言模型也是在这样的思考模式下“学舌”的，你给它一段文本，它会通过计算预测下一个最适合出现的字，然后不断通过这个过程，以已经存在的字作为上下文，再次预测下一个字，直至大语言模型觉得该停下来为止。

而同一个字在文本中通常有着不同的含义，这时候 GPT 会对它进行特征分析。特征分析的过程，可以理解为给它赋予一种颜色，每累加一个特征即对应一个色块，完成所有特征的累加之后，会得到一种混合出来的颜色，不同语义下的字词对应的颜色一定会存在偏移。以下图为例，在思考第一行的「行」字时，假设大语言模型将名词对应淡黄色，将与名词一同出现对应与黄色相关的橙色，以此类推，就可以获得一系列「行」字所对应的各种语言含义的色块，再把这一系列色块混合最终得到一个偏深红的颜色。

一个字是一个颜色的话，一段文本对应的则是一串五颜六色的编码条，类似一段 DNA 的碱基序列，GPT 在进行文本处理时，实际上是在找字与词的 DNA 编码，并把这个编码拿去计算。在这样“数字+颜色”编码规范下，大语言模型可以精准地识别输入的文本，并在既定的语料中寻找答案。

需要注意的是，大语言模型本身并不存储知识，它只是学会了知识编写的规则。当大语言模型提供搜索引擎功能的时候，它其实并不理解这些知识，它能回答出这些问题，是因为我们给到的语料当中有这些知识的存在，它只是在模仿既定语料中的行文规则进行输出。这也是为什么除了学习这些知识之外，大语言模型还能对文本进行总结、润色，转写等操作，因为我们提供的模版对续写和仿写进行了规范。我们在做指令微调时，实际上是在扭曲大语言模型所在的宇宙。例如下图所示，通过微调改变了“你”后面出现“今”这个字的权重，所以大语言模型最终能够输出“你今天xxx”的文本。

如何

激发智能

绝大多数大语言模型擅长的事情是扩增、原语、编码、解码、转译和变换。而在实际的交互中，大语言模型所要处理的事情可能超出了六大领域范围。这就是为什么使用过 ChatGPT 的人对它有着“容易犯蠢、胡编乱造、不听话、不会数学运算和逻辑推理”的印象。因为大语言模型本质是基于概率产生内容的，因此在交互过程中，不可避免的会出现“一本正经地胡说八道”的情况（往往也被称为“幻觉”），这时候，大语言模型就变成了一只活在幻觉里的，患有虚谈症的“随机鹦鹉”，它并不知道知识和语言的含义，只是通过规律推导出来接下来适合这样造句。如何利用好这种规律智能，成为了如今大部分人思考的问题。

这就要提到很多关于大语言模型的技术分享中都会讲到的「提示词工程」了，和大语言模型一样，「提示词工程」并没有什么魔法，它就是一种提问的艺术。天才数学家陶哲轩在进行数学研究时，就得到了来自 GPT-4 的神助攻，他说“它给我提供了最终的解题思路，接下来我只需要继续计算就行”。在陶哲轩放出的聊天记录中，我们可以看到，他把问题表达得非常清楚（我是谁，我在做什么，做了什么失败尝试，现在有什么困境，希望得到什么结果）。在这样的提示下，GPT-4 给到了它合理的建议。

除了详细清楚的结构化提问之外，我们还可以通过人工构造规律和样本的方式给大语言模型提供参考，以此来影响结果生成的概率。针对重叠的上下文，我们需要对任务进行拆分，避免干扰，因此当你发现模型“变笨”时，就需要把聊天记录删掉。最后，我们可以约束大语言模型的输出，比如告诉模型“如果你不知道，那么就不要做出任何响应了”，避免它无脑输出一些结果。

在这基础之上，我们可以将提示词作为积木，通过搭积木的方式构建和延展这种智能。在 Agent 智能体的帮助下，基于提示词将知识进行转化，并通过 API 调用集成视觉感知、搜索引擎、浏览器等功能。这时候的大模型就不仅仅只是会回答问题或者续写，而是以自然语言为交互界面进行了能力的拓展，将 AI 智能覆盖到更多地方。这里的 Agent 模拟出具有社会学特征的个体，比如斯坦福打造的 AI小镇，模拟了真实的人类生活，其中由 ChatGPT 扮演的人物角色可以像人类工作、生活，可以相互协作，也可以彼此交流（交流时用的也是人类语言哦）。

此外，大语言模型的多模态能力也是未来的发展重点。OpenAI 最新的 ChatGPT 就在增强文本生成能力的基础上，还支持了多模态能力，包括图像读取与理解、语音对话和语音生成等。举例来说，一个具备图像识别能力的机械臂，可以通过上述的「提示词工程」，结合「视觉感知」的 API，配合相关指令，就可以通过输入输出自然语言实现对物品拾捡的动作。未来，我们或许可以让一个 GPT 代替我们参加会议并生成纪要，或许可以让 GPT 自动完成运维信息的搜集，大模型会开始走进生活工作的方方面面。

普通人在生活中可能会觉得大语言模型还比较远，因为大部分人接触到的已经是大语言模型应用的最终形态，但其实它的底层宇宙已经千变万化。当然，大语言模型的发展还在继续，人们仍在前行，探索着大语言模型下更多未知的奥秘，打开未来智能世界的画卷。

发表于: 2024-01-122024-01-12 12:00:00
原文链接：https://page.om.qq.com/page/O_jpL2ISmeIh9MUFITEB7Aaw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

从“鹦鹉学舌”到“硅基智能”｜如何释放 LLM 的潜力？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

从“鹦鹉学舌”到“硅基智能”｜ 如何释放 LLM 的潜力？

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

从“鹦鹉学舌”到“硅基智能”｜如何释放 LLM 的潜力？