首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

史上最佳科普 | 最生动的方式快速明白什么是大模型LLM、生成式AI和Transformer!

AI大热下,大量的知识和概念突然出现在我们生活中,大模型、LLM、生成式、ChatGPT的原理是计算下一个词的概率等等,在无法深入到公式层面的前提下,如何理解这些概念呢,似乎很难。

但是,我在金融时报发现的这个网站(https://ig.ft.com/generative-ai/),以非常巧妙的交互方式,十分生动地解释了大模型推理的原理,其中对于概念的解释堪称一绝。

我认为是我见过最佳的科普生成式AI的网站,没有之一。

强烈建议可以查阅原网站,网站的交互设计也是我见过最好的。

下面让我们一起进入大模型的世界。

1、生成式AI之所以能出现,是因为Transformer的出现!

"Transformer"是一篇非常重要的论文,标题为《Attention Is All You Need》,由Vaswani等人于2017年发表。

在过去的几年里,我们在长达数十年的构建智能机器的探索中取得了巨大的飞跃:大型语言模型(LLM,large language model)的出现。

这项技术基于试图模拟人类大脑的研究,催生了一个被称为生成人工智能的新领域——可以在模仿人类能力的水平上创建合理且复杂的文本、图像和计算机代码的软件。

那么到底Transformer是怎么运作的?为什么以此为基础的LLM可以像人类一样理解并生成内容?

2、Token化:另一个角度理解文字

人类理解文字是通过学习单词、语法从而来理解和记住文字的“排列组合”。

那么计算机如何理解文字?

一个单词块被分解成Tokens——可以编码的基本单位。标记通常表示单词的小部分,但我们会将每个完整的单词转换为标记。

分成Tokens后,为了“抓住”每个单词代表的含义,LLM会在大量的训练数据里观察每个Token附近的单词。这些训练数据来自于整个互联网,成千上亿的数据量!

最终,LLM得到了大量的和某个单词(比如这里是work)相关的数据,同样也有很多和work无关的数据。

3、词嵌入:将Token用序列表征,量化单词的含义

模型在处理这一组单词时时,会使用一个数组Vector,也就是向量化。这里面有两种表示方式,离散表示(one-hot representation)和分布式表示(distribution representation),又被称为词向量。本质上是一个降维的过程,感兴趣可以深入了解NLP。

这个数组也被称为词嵌入(word embedding)。

最终一个word embedding可以有数百个值,每个数值代表了单词的某种含义,也可以理解为特征,比如使用红色、品牌、发动机、轮胎等来描述一辆汽车。

词嵌入可以量化单词的语言特征(虽然有时候并不知道某个数值具体代表什么特征)。

虽然不知道数值含义或者代表什么,但是我们经常说的同义词具有类似或者大体相同的word embedding。

就像上图中的sea和ocean,一般是不会同时出现在,但是他们含义彼此接近,而词嵌入量化后,可以让们直观的感受这两个词语的亲密程度。

假设我们将代表单词含义的向量列表中数值减少到2个值,就可以在熟悉的平面象限中来观察他们——观察他们之间的距离。

显而易见,我们可能会发现“名词”在一起,然后“运输方式”在一起。

而能够以这种方式量化单词是模型能够生成文本的第一步。

4、Transformer:大模型之所以能聪明的关键所在

上面我们量化了单词,可以通过,比如二维空间的距离,来观察各个单词的含义。

但是,LLM之所以能像今天看起来这么聪明,依赖于一种叫做“Transformer”的机制,是Transfromer从根本上增强了计算机理解语言的能力和方式。

Transformer可以看作是生成式人工智能时代的开始。

而Transformer中一个关键的概念就是自注意力机制Self-Attention。

Self-attention会查看文本中的每个标记,并决定哪些其他标记对于理解含义最重要。

在自注意力机制出现之前,NLP自然语言处理最先进的方法是循环神经网络RNN——一种依次扫描并按顺序处理句子信息的方法。

通过Self-attention,Transformer可以同时计算和关注句子中的所有单词。捕获上下文这种能力给LLMs提供了更复杂的语言解析能力。

在这个下面例子中,Transformer可以通过上下文准备的理解,两个interest的含义。

并且,即使我们将这两个词语所在的句子组合起来,模型依然能够理解正确的含义,这得益于随附文本Accompanying Text。

比如,对于第一个interest,no和in是模型最为关注的。

这个功能对于生成高质量的文本内容至关重要。

如果没有他,在某些上下文中可以互换,但在其他上下文中不能互换的单词可能会被错误的使用。实际上,当你想要撰写的是和利率interest相关的文章时,模型将不会enthusiasm出现。

这种能力,超越了单词,比如上文中的interest,具有多种意义。比如在下面的例子中,模型对于it的理解,在第一句中很大概率会把it理解为dog狗,而在第二句中,it将被理解为bone。

所以,训练数据规模越大,Self-attention对于语言处理的好处越明显。自注意力机制允许LLMs可以从某个句子边界之外获取上下文资料,使模型更好地理解单词的使用方法和使用时机。

5、ChatGPT,GPT-4的能力为何如此强悍?

ChatGPT为何能够根据你输入的“提示词”,输出你最想要的结果?

模型在对提示词进行编码,通过Token化、词嵌入Word embedding和自注意力机制Self-Attention后,变成了机器可以理解的数据块,这些不同数值代表了提示词之间的含义、位置和各个单词之间的关系。

显而易见,模型最简单的就是预测这个序列的下一个单词是什么?

比如about是概率最高的下个单词。

然后模型预测完成第一个单词后,将所有结果输入,然后继续下一个单词。

但是这样做带来一个问题,就是虽然每个单词都是上一个单词后面的大概率单词,但是整个句子来看的话,可能并不合适,甚至不是很相关。

Transformer使用多种方法来解决此问题,其中一个方法是波束搜索。

它不是只关注下一个单词的概率,而是着眼于整个更大句子标记集合的概率。比如下面就有四种可能性。

并且这四种可能性也都有各自的概率。通过beam search,模型能够考虑多条路线,并找到最佳的概率选择。

这样,模型就会生成更好的结果,最终产生更连贯、更接近人类的文本。

6、幻觉:概率越大就正确吗?

虽然模型通过一系列操作可以根据提示词生成内容了,但是结果并不是总能符合预期。

虽然GPT生成的文本“读起来”合理并且连贯,但是这些内容并不一定总是“正确”。

这是因为LLMs并不是查找“事实”的搜索引擎,而是一种模式识别引擎——猜测序列中的下一个最佳选项。

所以,LLMs会产生被研究院称之为“幻觉”(hallucination)的信息。

GPT会虚构数字、名称、日期,甚至是整篇文章。

研究人员认为幻觉不可能完全消除,但是OpenAI、Google等大公司正在努力通过一种叫做“接地”的过程来限制幻觉——这涉及到使用网络搜索结果来交叉验证LLMs的输出,并向用户提供引文citations以便用户进行验证。

当然,人类自身也被用来提供反馈并填补信息空白——这一过程被称为人类反馈强化学习RLHF,有点像《流浪地球2》中的Moss所说的人在回路——以便进一步提高内容输出质量。

7、多模态:不仅仅是文本,他可以做任何事情

尽管存在幻觉的诸多限制,Transformer还是催生了目前最为领先的大模型,比如ChatGPT、Bard等。

但是Transformer真正的力量超越了文本语言——发明者发现Transformer可以识别和预测任何图像或者模式。

于是DALL-E、Midjourney和Stable Diffusion等图像生成AI诞生;

Github Copilot代码生成器诞生;

甚至可以用来预测音乐中音符;

用来设计蛋白质中的DNA来帮助发明药物。

总结:

Take this simple model that predicts the next word and it . . . can do anything

Aidan Gomez, chief executive of AI start-up Cohere, and a co-author of the transformer paper.

Transformer的作者之一表示,采用这种预测下一个单词的简单模型,可以做到任何事情。

现在GPT或者未来的什么模型,是可以在整个互联网上进行训练,这将会产生出比以往任何模型都更好的模型。

这才是这个故事最神奇的部分。

*以上所有非内容解释图片都是由DALL·E生成

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OR6cfDugqETbnZUYB4-mb_yg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券