ChatGPT是如何铸就的？

博文视点Broadview

发布于 2023-04-04 10:13:12

4530

发布于 2023-04-04 10:13:12

文章被收录于专栏：博文视点Broadview

抛出一个观点：

神经网络大模型 ⊙ 知识图谱 ⊙ 强化学习=通用人工智能（AGI）

⊙号用来表示组合/融合的方法，这里的 AGI，我称之为以人为本AGI。

通用人工智能有两类——以人为本和以AI为本。

以人为本AGI ：就是以人类为中心的通用人工智能，人工智能是以服务人类为目的的，有名的“机器人三定律”说的也是这个。以人为本 AGI，不可避免地会遇到 “事实”x问题，这个事实是以人类为标准的，比如《定风波莫听穿林打叶声》这首词的作者是苏轼，如果如下图一样胡编乱造，那就是不可以接受的了。这些涉及人类生产、生活、生命等方方面面事实，都需要确切的表述。而这个涉及事实的确切表述，是无法单纯靠神经网络大模型来解决的，进而必然需要提供事实性的方法。知识图谱是当前一种合适的方法。当然，知识图谱本身也需要随着AGI 的发展不断发展的。

以 AI 为本AGI：如果完全抛弃人类现实，那么知识图谱这种提供人类社会事实的技术可能是不需要的。这种 AGI 可以不顾人类世界的事实，只要自身逻辑成立，构建出完整的世界即可。

不过，人类还未开始对非“以人为本AGI”进行启蒙。所以，在很长一段时间内，AI 还是要考虑人类现实。也正因此，我给出的公式是：

神经网络大模型 ⊙ 知识图谱 ⊙ 强化学习=通用人工智能（AGI）

1. 走向AGI：有关AGI、ChatGPT，Bard的最新进展

1月26日，美国新媒体巨头Buzzfeed宣布计划采用ChatGPT协助内容创作，其股价暴涨近飙升157%[1].

论文《Will ChatGPT get you caught? Rethinking of Plagiarism Detection》[2]探讨了ChatGPT所生成内容的原创性问题，论文认为ChatGPT 具有生成复杂文本输出的巨大潜力，而不会被剽窃检查软件很好地捕捉到。换句话说，ChatGPT可以在许多主题上创建内容，具有很高的原创性，就好像它们是某人写的一样。

Google 搜索主管Prabhakar Raghavan在采访中说，类似 ChatGPT 和 Bard 一样的聊天机器人会给出令人信服但完全虚构的答案，并表示虽然压力巨大，但不想匆忙推出会误导大众的产品[3]。虽然说Google的人有为 Bard 辩解的韵味，但 Google 确实在解决大语言模型胡说八道的问题，在 Google与 ChatGPT 类似的产品LaMDA、Sparrow的论文中，一直在强调事实凭据，并使用知识图谱等外部事实来为答案提供凭据。有关知识图谱的，可参阅《知识图谱：认知智能理论与实战》一书。

一篇很长的论文《Dissociating language and thought in large language models: a cognitive perspective》[4]从计算语言学、认知科学和神经科学等视角对大语言模型LLM两方面的能力进行评估：“形式语言能力（formal linguistic competence）”和“功能语言能力（functional linguistic competence）”，前者是指给定语言的规则和模式知识，后者则是指现实世界中理解和使用语言所必需的认知能力。论文认为LLM在形式语言能力取得了巨大成功，表现卓越。但同时认为，仅仅使用语言模型（即使扩大规模）也无法实现 AGI。最后，论文建议，除了进一步推进模型的参数规模外，还需要构建额外的感知（perception）、推理（reasoning）和规划（planning）能力模型。关于这点，我是比较同意的，在知识图谱领域也一直有着推理和规划等方面的研究，详情可参阅《知识图谱：认知智能理论与实战》第7章“知识推理”。而这篇文章也在认知科学和神经科学方面进一步验证了篇头的那个等式“神经网络大模型+知识图谱+强化学习=通用人工智能（AGI）”。

2. 炼成ChatGPT的江湖传说

2022年11月30日，OpenAI发表了一篇简单的博文《ChatGPT：对话优化的语言模型（ChatGPT: Optimizing Language Models for Dialogue）》。这篇文章和以往 OpenAI 的文章相比，并没有什么特别之处，即使是文章中所给出的例子，看起来也不那么起眼。

但与文章同时发布的，还有一个网页版聊天机器人的试用连接。正是这个聊天机器人，如同蝴蝶煽动的翅膀，经过极短时间的发酵，终于掀起了人工智能江湖的滔天巨浪，并波及到整个世界。这也有点像《倚天屠龙记》的屠龙刀，其出现江湖并不那么的精彩，但终究掀起江湖的巨浪，甚至于改朝换代，波及当时的每一个普罗大众。

近几年，在大规模预训练模型的支撑下，自然语言处理技术发展迅速。这些技术使得人工智能能够执行曾经被认为不可能的任务，并为开发更先进的解决现实中更多问题的系统铺平了道路。

这些技术包括越来越大的基于无监督学习（Unsupervised Learning）的大语言模型，越来越多的训练语料，基于大模型所产生的情境学习（In-context learning）和思维链（Chain of Thoughts），用于人机交互的强化学习（Reinforcement Learning）和人类反馈强化学习 (Reinforcement Learning from Human Feedback，RLHF)以及专门为对话进行模型优化的对话模型与系统（Conversational AI）等等。

ChatGPT 正是这样一个当前人工智能领域的卓越成果。但根据纽约时报的报道，OpenAI 推出ChatGPT 非常具有戏剧性和偶然性[5]。11月中旬的一天，OpenAI 的工作人员接到了一项突击任务“快速发布一个聊天机器人”。这一点都不像硅谷的作风，倒像中国公司996的作风【苦笑】。正是这个突击任务，扇起了蝴蝶的翅膀。该聊天机器人内部被命名为“Chat with GPT-3.5” ——这便是我们现在所熟悉的 ChatGPT 了，并将于2周内向公众开放。这么短时间内搞出个新产品的作风，赤裸裸的“中国风”嘛^_^!

纽约时报的报道中还提到，这种突击行为引起内部员工的困惑。一方面是他们正全力以赴开发计划于2023年初发布的 GPT-4模型。另一方面，此前，许多友商都推出类似产品并引起巨大的负面舆论，这包括Google的对话模型 LaMDA 和 Meta 的Galactica、BlenderBot等。而对这些产品的批评都是，模型会生成看似正确但却胡说八道的内容，比如下图这个例子。

OpenAI 内部对这点也有着深刻的认识，在其发布ChatGPT 的博文上就明确地说：“ChatGPT 有时会写出看似合理但不正确或荒谬的答案。这个问题难以解决。”

在当时，OpenAI 的人深知，Meta 在推出Galactica仅三天就被骂得撤回该产品。现在看来，这些尖锐的批评同样适合 ChatGPT，并且非常中肯。这也难怪当时内部对推出 ChatGPT 的怀疑态度。

德国马克斯普朗克智能系统研究所所长迈克尔·布莱克批评“在所有情况下，它都是错误的或有偏见的，但听起来是正确和权威的。我认为这很危险。”

普林斯顿大学的天体物理学家 Miles Cranmer在 Twitter评论Galactica：“你永远不应该使用（Galactica）输出的文本或相信它。基本上，将其视为对（粗略的）二手资料的高级谷歌搜索！”

一直批评深度学习的纽约大学的认知科学家加里·马库斯 (Gary Marcus) 更是直言不讳地认为是“Bullshit”，并认为大型语言模型模仿人类书写文本的能力不算什么。

虽然我认为我们应该积极赞扬基于大语言模型的人工智能系统，支持其发展，并在实践中应用这些系统来解决各种问题。但上面的所有批评都有其道理。这是由于大语言模型无法解决天生的胡说八道的问题——依靠概率生成的文本。大语言模型不存在是与非，不存在事实问题。

曾经对Galactica表示称赞的图灵奖三巨头之一的Yann LeCun，也激烈批评了语言大模型的问题“人们严厉批评大语言模型是因为它的胡说八道，ChatGPT 做了（与语言大模型）同样的事（People crucified it because it could generate nonsense. ChatGPT does the same thing.）”。

事实上，搞深度学习的基本都能认识到这一点，并且也深知，解决这个问题必须依赖于知识图谱等外部知识。这点在权威书籍珠峰书《知识图谱：认知智能理论与实战》中也做了探讨。并且，Google 在对话优化的语言大模型 LaMDA 以及基于人类反馈强化学习的产品Sparrow都研究了如何使用知识图谱来为大模型生成的响应做事实校验和依据。

当然，ChatGPT 的走红，也出乎了 OpenAI 的意外。短短两个月时间就有了1亿用户，成为了史上用户增长最快的产品。这点我的观点是，公众总是对创业公司表现宽容，但对巨头公司比较苛求。和朋友们探讨时，我的比喻是，OpenAI 是小孩子，有一些优点就值得赞扬，何况 ChatGPT 确实牛逼，瑕不掩瑜。但如Meta 和 Google 这样的巨头，则会更关注其缺点，如同 ChatGPT 这样胡说八道的产品，极其容易引起负面新闻。这很明显，即使大家都知道 ChatGPT也经常胡说八道，但Google发布Bard 是展现了一个错误的事实，依然引起股价大跌1000亿美元。

回过头来，ChatGPT 走红有一定的偶然性，但也有相当的必然性。偶然性大概率是由于大众对创业公司的宽容，如果是 Google 或微软推出，被批评后关闭的概率还挺高的。而必然性呢，则是因为 ChatGPT 综合了近几年自然语言处理和深度学习领域的大量研究成果，将无监督学习、有监督学习和强化学习三大机器学习范式综合在一起，并且和以往的“人工智障”一样的聊天机器人产品有着天壤之别。可以这么认为，通过 ChatGPT，我们大约看到了一点通用人工智能的微弱的曙光。这也是为啥一石激起千层浪，ChatGPT如若屠龙刀的现身，搅乱了整个人工智能江湖，掀起了腥风血雨，并波及了整个人类社会。有关波及社会的各领域，可参考文章ChatGPT所到之处硝烟弥漫，一文看遍各行业对ChatGPT的专业评估——且看AI江湖谁是屠龙刀下冤魂？

3. ChatGPT 是如何铸造的？

要铸造屠龙刀，需要三大块内容缺一不可。《倚天屠龙记》中如何铸造屠龙刀的是一笔带过，但在书中结尾断的屠龙刀如何接回去，则详细介绍，从中可以管中窥豹：

原材料——断的屠龙刀，其原始材料则是杨过（独孤求败）的玄铁重剑；
工具——高炉、风箱、以及用两枚圣火令夹住半截屠龙刀；
方法——锐金旗掌旗吴劲草的铸剑之术，同时需要明教诸多高手的配合。

事实上，要构建一个 ChatGPT，也需要和铸造屠龙刀类似的三大块的内容，但诸多研究者往往关注算法这一点，而忽略了语料和训练工具的重要性：

原材料——大规模文本语料（包括程序）；
工具——微软提供的超级 AI 计算集群，以及并行训练的框架；
方法——人工智能算法，包括基于变换器网络解码器的GPT网络结构、人类反馈的强化学习等多种算法的组合。

我一直强调的是，ChatGPT 是一个大工程，是综合当前信息技术几乎所有细分领域的高精尖的成果所构建出庞大的工程性成果。这已经不是一个小团队搞个三五个月就能出成果的。即使是 OpenAI，如果没有和微软一起搞定的Azure AI超级计算集群，以及集群之上的各种工具，也未必能高处 GPT-3、 Codex和ChatGPT。

这也是我一直强调的大工程的能力的核心原因。许多人可能更关心 ChatGPT 的算法，或认为算法领先，即使巨头也做不出来；或认为算法公开，抄一个小菜一碟。这可是舍本逐末，差之毫厘谬以千里！

在大工程之下，要铸造 ChatGPT需要什么呢？下图是关于从 GPT-3到ChatGPT的源流与沿革。关于这个，江湖中其实流传着许多错误的传说。

从上图和ChatGPT 的博文，咱可以梳理出：

ChatGPT 和 GPT 3.5 在 Azure AI 超级计算基础设施上进行了训练。早期的一篇文章[6]可以看到，超级计算集群有285,000 核CPU，10,000 个GPU和 GPU 服务器之间的400 Gbps的网络带宽。在当时的Top500的算力中排在前五。在此之上是 DeepSpeed[7]。DeepSpeed是一款易于使用的深度学习优化软件套件，可为深度学习训练和推理提供前所未有的规模和速度。另一个与之相关的是微软和 Nvidia 一起使用DeepSpeed和Megatron训练出了当时全球最大的和最强大的生成语言模型Megatron-Turing NLG 530B[8]。
ChatGPT 是从 GPT-3.5 系列中的一个模型进行微调的，这个模型应当是text-davinci-003。从前面纽约时报的消息可以知道，ChatGPT 是匆忙推出的，用的是其内部较为成熟的模型。另外，text-davinci-003 相比于text-davinci-002和text-davinci-001的差别是，text-davinci-003是使用了 PPO 的强化学习方法来从人类使用者中得到反馈所训练出来的，这点符合 ChatGPT 官方发布的文章的描述。
由上图可知，实现 ChatGPT 所需要的大规模语料包括文本语料和来自github的代码语料。ChatGPT 用到的语料至少包括：

①GPT-3所使用的3000亿词元的语料[9]，构成如下：

②Codex用到的 Github 上的代码语料[10]，由 Github 上的5400万开源仓库，一共179GB 的每个文件小于1MB 的Python代码文件，处理后的数据集为159GB。

ChatGPT 会对输入文本情感判断（分类），拒绝那些带有暴力、自我残害、仇恨和色情的对话请求。这个过程使用的是Moderation方法[11]，是使用 GPT 模型来进行文本分类的一个应用。

基于大规模预训练模型之上的有监督微调训练，以及使用强化学习方法来训练奖励模型，用于预测输出的好坏。广为流传的下图所示的就是这个过程。

迭代升级，从 ChatGPT 发布至今已经进行了多次升级，比如显著提升数学能力的升级，以及提升响应速度方面的升级。事实上，这个是持续的过程，发布之出就发布了ChatGPT 反馈竞赛（奖励为500 美元的 API 积分），而全球数千万的用户每天的使用，以及各个领域专业人士的评测，都在持续为 ChatGPT 的升级提供数据和知识。反馈迭代升级，尤其是各个领域的专业评估（详见本文开头部分信息，以及前一篇文章），是非常关键的，甚至是构筑产品壁垒最关键的环节。除了 ChatGPT，其他产品很难再获得如此多且专业的反馈了。

关于反馈竞赛，这里顺带提一下，可以看出 OpenAI 最关心的反馈的三个方向：更好地理解在真实的、非敌对环境中可能发生的风险或危害；具有新颖性的反馈或有助于更好地理解该系统的反馈；可以从更多利益相关者那里获得反馈的新方法。从这点也可以看出，用户（特别是各领域专业认识）反馈是多么重要！

4. 总结

这里仅仅介绍了铸造 ChatGPT 的核心环节，每一个环节都值得专门的一篇文章来介绍。后面咱会继续跟各位讲解每一个环节涉及的核心技术，以及相关的江湖传说。

在最终结束前，再说一个人工智能江湖的“金科玉律”：

每一次人工智能的突破，都会使得社会获得巨大的受益，人们会因此兴奋或狂热。但一段时间过去了，人们适应了这种智能化状态，所谓的人工智能就变得不智能了，而人们也慢慢地忘记了当年的兴奋或狂热。这一次也不例外。许多媒体都在鼓吹，ChatGPT 是第一个让普通大众收益的 AI 产品，他们丝毫忘记了辅助驾驶已经成为现今汽车的标配，人脸识别是日程习以为常的应用，OCR为每一个办公场景中提供服务，语音识别和生成时时刻刻为人们的交流和学习提供服务，而不那么大众的围棋 AI 和象棋 AI 在当时引起的轰动则丝毫不逊于这一次的 ChatGPT。这一切，都是当时的“智能”产品，现在的“不智能”产品！

5. 参考文献

[1]BuzzFeed to use AI to ‘enhance’ its content and quizzes. The Guardian. https://www.theguardian.com/media/2023/jan/26/buzzfeed-artifical-intelligence-content-quizzes-chatgpt. 2023.

[2]Mohammad Khalil, Erkan Er. Will ChatGPT get you caught? Rethinking of Plagiarism Detection. arXiv:2302.04335. 2023.

[3]Google search chief warns AI chatbots can give 'convincing but completely fictitious' answers, report says. Insider. https://www.businessinsider.com/google-search-boss-warns-ai-can-give-fictitious-answers-report-2023-2. 2023.

[4]Kyle Mahowald, Anna A. Ivanova, Idan A. Blank, et al. Dissociating language and thought in large language models: a cognitive perspective. arXiv:2301.06627. 2023.

[5]How ChatGPT Kicked Off an A.I. Arms Race. The New York Times. https://www.nytimes.com/2023/02/03/technology/chatgpt-openai-artificial-intelligence.html. 2023.

[6]Microsoft announces new supercomputer, lays out vision for future AI work. Microsoft.com. https://news.microsoft.com/source/features/ai/openai-azure-supercomputer/. 2020.

[7]DeepSpeed. https://github.com/microsoft/DeepSpeed.

[8]Using DeepSpeed and Megatron to Train Megatron-Turing NLG 530B, the World’s Largest and Most Powerful Generative Language Model. Microsoft.com. https://www.microsoft.com/en-us/research/blog/using-deepspeed-and-megatron-to-train-megatron-turing-nlg-530b-the-worlds-largest-and-most-powerful-generative-language-model/. 2021.

[9]Tom B. Brown, Benjamin Mann, Nick Ryder, et al. Language Models are Few-Shot Learners. arXiv:2005.14165. 2020.

[10]Mark Chen, Jerry Tworek, Heewoo Jun, et al. Evaluating Large Language Models Trained on Code. arXiv: 2107.03374. 2021.

[11]Todor Markov, Chong Zhang, Sandhini Agarwal, et al. A Holistic Approach to Undesired Content Detection in the Real World. arXiv: 2208.03274. 2022.

作者著作

京东限时五折优惠，快快扫码抢购吧！

每日抽奖

发布：刘恩惠
审核：陈歆懿 

如果喜欢本文欢迎 在看丨留言丨分享至朋友圈 三连<  PAST · 往期回顾  >
书单 | 开学季，不容错过的优选好书！



点击阅读原文，查看本书详情！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-02-20，如有侵权请联系 cloudcommunity@tencent.com 删除

知识图谱

本文分享自博文视点Broadview 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度