前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大模型时代:ChatGPT开启通用人工智能浪潮

大模型时代:ChatGPT开启通用人工智能浪潮

作者头像
yeedomliu
发布2023-09-15 09:09:14
4600
发布2023-09-15 09:09:14
举报
文章被收录于专栏:yeedomliuyeedomliu

代序

所谓的深度是指神经网络中隐藏层的数量,它提供了学习的大规模能力。

特点

人脑

深度学习神经网络

通信语言

自然语言

数学函数、算法

重量/规模

1.5千克,约860亿神经元

取决于模型大小,可能只有几百到几百万神经元

连接

数万亿个突触

可变,但通常远少于人脑

学习机制

突触强度增强或减弱

权重调整,通常通过梯度下降等算法

计算单元

神经元

人工神经元

学习途径

生物学途径

硬件和软件模拟

理论基础

基于100万亿个神经元之间的连接变化

通常基于数学优化和统计学习理论

在辛顿深度学习的背后,是对“如果不了解大脑,就永远无法理解人类”这一认识的坚信。人脑必须用自然语言进行沟通,而只有1.5千克重的大脑,大约有860亿个神经元(通常被称为灰质)与数万亿个突触相连。人们可以把神经元看作接收数据的中央处理单元(CPU)。所谓深度学习可以伴随着突触的增强或减弱而发生。一个拥有大量神经元的大型神经网络,计算节点和它们之间的连接,仅通过改变连接的强度,从数据中学习。所以,需要用生物学途径,或者关于神经网络途径替代模拟硬件途径,形成基于100万亿个神经元之间的连接变化的深度学习理论。

属性/特性

描述

学科融合

数学、统计学、计算机科学、物理学、工程学、神经学、语言学、哲学、人工智能学

状态

革命性的

临界点影响

在达到临界点之前,性能不比随机好

性能改善

在突破临界点之后,性能明显改善

涌现(Emergence)

形成爆发性的涌现能力

大模型是在数学、统计学、计算机科学、物理学、工程学、神经学、语言学、哲学、人工智能学融合基础上的一次突变,并导致了一种“涌现”(emergence)。大模型也因此称得上是一场革命。在模型尚未达到某个临界点之前,根本无法解决问题,性能也不会比随机好;但当大模型突破某个临界点之后,性能发生越来越明显的改善,形成爆发性的涌现能力

图Ⅱ 模型参数规模扩大为大模型带来的能力“涌现”

以OpenAI为代表的团队,为了让具有多层表示的神经网络学会复杂事物,创造了一个初始化网络的方法,即预训练(pre-trained)。在GPT中,P代表经过预训练(pre-trained),T代表Transformer,G代表生成性的(generative)。

生成式AI有望从简单的内容生成,逐步达到具有预测、决策、探索等更高的认知智能。

大语言模型通过自监督学习和数学工具如贝叶斯原理和马尔可夫链,从大量文本数据中学习语言规则,以实现对多种语言表达的容忍、适应和灵活处理,进而生成语法和语义合理的文本。

词嵌入是一种技术,它将词语转换为低维实数向量以捕捉其语义信息,用于文本处理和模型生成。

特性/需求

描述

应用/影响

思维链 (CoT)

一种多步推理的微调技术,通过逐步分析问题得出答案

提高模型的解决问题的能力

第四范式 (4NF)

有助于减少数据依赖中的冗余和碎片化,实现“一事一地”

使大模型更加结构化和规范化

向量数据库

用于存储模型接收和学习的向量化文本数据

提高数据的高效存储和搜索

泛化 (Generalization)

大模型可以应用到其他场景

增加模型的应用范围

通用性

是大模型泛化功能的最终目标

需要突破泛化过程的局限性

大模型已经形成“思维链”(CoT)。“思维链”是重要的微调技术手段,其本质是一个多步推理的过程。通过让大语言模型将一个问题拆解为多个步骤,一步一步分析,逐步得出正确答案。还可以这样理解,“思维链”相当于是大模型当中的数据,AI以思维链为数据,再来做微调和反馈,从而形成AI能力

在计算机语言中,有一个第四范式(4NF)概念,其内涵是逐步消除数据依赖中不合适的部分,使关系数据库模式的各关系模式达到某种程度的“分离”,即“一事一地”的模式设计原则。第四范式的概念有助于理解“思维链”的功能,有助于大模型更加结构化和规范化,减少数据信息冗余和碎片化等弊病,提高大模型的效率

大模型需要向量数据库的支持。虽然大模型呈现出端到端、文本输入输出的形式,但是大模型实际接收和学习的数据并不是传统文本,因为文本本身数据维度太高、学习过于低效,所以需要向量化的文本。所谓向量化的文本,就是模型对自然语言的压缩和总结。向量也因此成为大模型数据存储的基本单位和AI理解世界的通用数据形式,大模型需要向量数据库,其实时性对分布式计算的要求很高,随着数据的变化实时更新,以保障向量的高效存储和搜索

大模型具有不断成长的泛化(generalization)功能。大模型泛化是指大模型可以应用(泛化)到其他场景,这一能力也是模型的核心

大模型的泛化性就是大模型的通用性,最终需要突破泛化过程的局限性。实现通用大模型,还有很长的路要走

Transformer是一种基于注意力机制的深度神经网络,可以高效并行处理序列数据,与人的大脑非常近似。Transformer包括以下基本特征:

  1. 编码组件和解码组件:Transformer模型由两个主要部分组成,一个是编码器(encoder),用于处理输入数据;另一个是解码器(decoder),用于生成输出数据。这两部分协同工作,使模型能够完成各种复杂的任务。
  2. 神经网络和数据转换:Transformer使用深度神经网络来处理序列数据。在训练期间,隐藏层(位于输入和输出之间的层)会自动调整其参数,以最有效地将一种数据类型转换为另一种类型。这种参数调整是基于输入数据的特征进行的。
  3. 数据和参数量的影响:拥有更多的训练数据和参数会使Transformer模型更加强大。特别是,在处理较长的文本序列时,这种模型能够更好地保持连贯性和一致性。
  4. 标记和嵌入:在处理输入文本之前,需要先将其标记(tokenize)并转换为统一的格式。然后,这些标记被嵌入到低维向量空间中,以便输入到Transformer模型。
  5. 并行处理:Transformer的一大优点是能够并行处理整个数据序列。这种并行能力使得模型的速度和处理能力都大大提高,达到了前所未有的水平。
  6. 注意机制:Transformer引入了“注意机制”,包括自注意力机制(self-attention)和多头注意力机制(multi-head attention)。这些机制使模型能够在处理非常长的文本序列时,准确地跟踪单词之间的各种关系。
    • 多头注意力机制:它由多个自注意力机制组成,可以在多个维度上捕捉单词间的关系。这一点是通过计算不同的注意力评分(attention scores)实现的。
  7. 训练和反馈:在训练期间,模型会使用大量的配对示例语料库(如英语句子及其对应的法语翻译)。编码器模块接收并处理整个输入字符串,然后尝试建立编码的注意力向量和预期输出(如翻译)之间的映射。

Transformer是一种非常高效、易于扩展、并行化的架构,其核心是基于注意力机制的技术,可以建立起输入和输出数据的不同组成部分之间的依赖关系,具有质量更优、更强的并行性和训练时间显著减少的优势。Transformer现在被广泛应用于NLP的各个领域,是一套在NLP各业务全面开花的语言模型。

摩尔定律在21世纪面临诸如功耗、内存和算力瓶颈等技术挑战,有三种选择:延缓摩尔,扩展摩尔,或超越摩尔。

21世纪以来,摩尔定律面临新的生态:功耗、内存、开关功耗极限,以及算力瓶颈等“技术节点”。摩尔定律逼近物理极限,无法回避量子力学的限制。在摩尔定律之困下,只有三项选择:延缓摩尔,扩展摩尔,超越摩尔。

图Ⅳ 支持大模型的结构层级

AI的快速发展预计将大幅增加全球能源消耗和对环境产生显著影响。

据估计,目前AI的能源消耗占全球能源消耗的约3%。根据一份报告,到2025年,AI将消耗15%的全球电力供应。除了硬件开发所必须投入的“固定碳成本”以外,对于人工智能日常环境的维护投入也不容小觑。所以,AI的快速发展将对能源消耗和环境产生巨大的影响

基于大数据与Transformer的大模型,实现了对知识体系的一系列改变。

  1. 改变知识生产的主体:在传统模式下,知识主要是由人类生成和传播的。现在,AI和大模型不仅能生成知识,还能与人类共同参与知识生产。这种转变意味着知识生成不再是人类的专利,而是一个混合生态系统,其中人类和AI都是参与者。
  2. 改变知识谱系:传统的知识体系通常是基于语义网络和分层结构构建的。大模型和Transformer通过使用知识图谱——一种可以简化为多关系图的高级结构——重新定义了这一体系。在这种图结构中,节点代表现实世界的实体,边则表示实体之间的各种关系。
  3. 改变知识的维度:知识不再是单一的、线性的或仅限于显性形式。由于AI的能力,现在可以更容易地捕捉和处理隐性知识。这包括了简单与复杂、独有与共有、具体与抽象,以及显性与隐性等多个维度。
  4. 改变知识获取途径:在AI和大模型的影响下,知识获取不再仅限于传统的学习和阅读方式。现在,机器生成的内容和智能搜索引擎都成为获取知识的有效途径。
  5. 改变推理和判断方式:人类推理通常是基于经验和直觉,而AI则更侧重于逻辑和算法。这种转变意味着未来的决策将可能是人类直觉和机器算法相结合的结果。
  6. 改变知识创新方式和加速知识更新速度:以AI和大模型为代表的新技术,具有自我学习和不断生成新知识的能力。这不仅改变了知识创新的方式,还极大地加速了知识的更新速度。
  7. 改变知识处理方式:传统上,人类对知识的处理分为记忆、理解、应用、分析、评价和创造等六个层次。大模型能在这些层次上发挥作用,例如通过自动摘要以帮助理解,或通过生成新的解决方案以辅助创造。

图Ⅴ 知识的“金字塔”结构

一般来说,知识结构类似金字塔,包括数据、信息、知识和智慧四个层次。大模型具有极为宽泛的溢出效应,其中最为重要的是引发前所未有的学习革命和知识革命。

如果大模型与外部知识源(例如搜索引擎)和工具(例如编程语言)结合,将丰富知识体系并提高知识的获取效率。万物皆可AI,因为大模型引发知识革命,形成人类自然智慧和人工智能智慧并存的局面(参见图Ⅵ)。

图Ⅵ 大模型对知识生产主体的改变

人物

立场或行动

变化或后悔

类比或担忧

辛顿(图灵奖得主)

曾对GPT-4赞誉有加

在一个月内,从赞美AI转为对其未来风险表示担忧,并选择离职以“自由地谈论人工智能的风险”

AI很可能会比人类更聪明,并构成威胁

爱因斯坦

参与了核武器的研发

在二战后对参与核武器研发感到后悔,对核武器成为冷战筹码和政治威胁感到不满

——

奥本海默

参与了核武器的研发

在二战后对参与核武器研发感到后悔,对核武器成为冷战筹码和政治威胁感到不满

——

最近,网上有这样的消息:有人利用最新的AutoGPT开发出ChaosGPT,下达毁灭人类指令,AI自动搜索核武器资料,并招募其他AI辅助。

同年4月,身在多伦多的图灵奖得主辛顿向谷歌提出辞职。[2]辛顿离职,是为了能够“自由地谈论人工智能的风险”。他对自己毕生的工作感到后悔,“我用一个正常的理由安慰自己:如果我没做,也会有别人这么做的。”辛顿最大的担忧是:AI很可能比人类更聪明。这样的未来不再久远。未来的AI很可能对人类的存在构成威胁。现在个人和公司不仅允许AI系统生成代码,并且会将其实际运行。而对比GPT-4刚发布时,辛顿还对其赞誉有加:“毛虫吸取了足够的养分,就能化茧成蝶,GPT-4就是人类的蝴蝶。”

仅仅一个多月,辛顿的立场发生如此逆转,不免让人们想到爱因斯坦(Albert Einstein,1879—1955)和奥本海默(Julius Robert Oppenheimer,1904—1967)。他们在二战后都明确表达了为参与核武器研发和建议感到后悔,更为核武器成为冷战筹码和政治威胁的工具感到强烈不满。

AI大模型是人工智能历史的分水岭,甚至是工业革命以来人类文明史的分水岭。

电影《机械姬》有这样一段苍凉的台词:“将来有一天,人工智能回顾我们,就像我们回顾非洲平原的化石一样,直立猿人住在尘土里,使用粗糙的语言和工具,最后全部灭绝。”

因为AI大模型,人工智能从1.0加速进入2.0时代。 在人工智能2.0时代,大模型的分工越来越明确(参见图Ⅶ)。日益增多的大模型,特别是开源大模型可以实现不同的组合,将大模型乐高(Lego)化,构成大模型集群。这不仅会推动人类的社会空间、物理空间和信息空间日益紧密融合,而且还将促成一个由大模型主导的世界(参见图Ⅷ)

图Ⅶ 人工智能1.0与2.0的差异

图片来源:李开复,“AI 1.0 到 AI 2.0的新机遇”,https://www.sohu.com/a/653951867_114778,2023-3-14。

图Ⅷ 由大模型主导的世界

绪论

英伟达公司的首席执行官黄仁勋认为“我们正处在AI的iPhone时刻”,也有人将ChatGPT Plugins比作苹果应用商店,生成式大模型被认为将像移动互联网一样开启一个新的时代。

我是一个大模型

人工智能模型的工作分为训练(training)和推理(inference)两个阶段,在跟人类聊天时,模型处于推理阶段,此时其不再调整自己的参数,而是根据已经学习到的知识来进行预测和响应,以帮助人类完成各种各样的任务。

步骤编号

工作步骤

一句话总结

1

接收输入

接收来自用户的文本或图片输入。

2

处理输入

把文本转换为计算机能理解的数字向量。

3

进行推理

使用训练好的模型基于输入进行推理并寻找最佳响应。

4

生成输出

把推理的结果转换成人们能理解的自然语言。

在跟人类聊天时,人工智能系统会执行以下步骤的工作

1.接收输入:接收人类的输入,通常是一句话或一段文字。多模态大模型还可以接收图片作为输入

2.处理输入:将输入的文本编码成数字向量,以便计算机理解和处理

3.进行推理:模型会基于输入的文本使用已经训练好的神经网络模型和它在之前的对话中所学到的知识来进行推理,找到最有可能的响应。

■ChatGPT会将人类输入的文本作为上文,预测下一个标识(token)或下一个单词序列。

■ChatGPT使用了基于自回归(auto-regressive)的生成模型,也就是说,在生成每个token时,它都会考虑前面已经生成的token。

图1.4 ChatGPT的概率候选词

4.生成输出:将推理结果转换为自然语言,以便人类理解,这通常是一句话或一段文字。

ChatGPT是怎样炼成的

主题

描述

模型参数数量

更多参数意味着更高的准确性和更广泛的应用范围。

语种数据分布

英语在Common Crawl数据集中占主导地位。

BERT的操作方式

BERT主要用于完形填空,并需要上下文信息。

生成式AI的应用领域

生成式AI在工业设计等多个领域都有广泛应用。

一个模型的参数数量越多,通常意味着该模型可以处理更复杂、更丰富的信息,具备更高的准确性和表现力。这是因为更多的参数可以提供更多的自由度,使模型可以更好地适应训练数据,并更好地进行泛化,也就是能够处理新的、以前没有见过的数据,可以在更广泛的应用场景中发挥作用。

图1.7 不同代际GPT所使用的数据集

从语种角度分析,只看其中数据量最大的Common Crawl,数据主要是英语,约占46%,中文、俄语、德语、日语等其他语言各占约5%。

图1.8 GPT与BERT的运行机制区别示例

BERT只做完形填空,左右两边的内容他都要提前获得才行,而生成新内容是需要从左到右一路预测下去的

图1.10 专业翻译模型与GPT学习翻译的不同方式

生成式AI不仅可以用于文本、图片、视频等领域,还可以在工业领域进行生成式设计(Generative Design),通过模拟和优化设计空间中的多种解决方案来生成最优化的设计,帮助设计师快速探索多个解决方案,从而节省时间和成本,提高设计的效率和质量。在生成式设计中,设计师首先定义问题的输入参数和限制条件,然后通过算法生成多个可能的设计方案,并使用评价函数来评估每个方案的质量。随后,算法会根据评价函数的反馈来自动调整设计方案,从而不断优化最终的设计结果。

GPT与BERT的不同

比较项

GPT描述

BERT描述

编码方向

单向编码,只能利用左侧的上文信息。

双向编码,可以同时利用左右两侧的上下文信息。

基础结构

基于Transformer解码器构建。

基于Transformer编码器构建。

预训练任务

使用传统的语言模型,即根据前面的词预测下一个词。

使用掩码语言模型(MLM)和下一句预测(NSP)两个预训练任务。

应用领域

可用于自然语言理解(NLU)和自然语言生成(NLG)。

主要用于自然语言理解(NLU),不适合用于文本生成。

历史背景与开发者策略

OpenAI采用从左到右单向编码,训练时做文字接龙。

谷歌的BERT采用上下文双向编码,训练时做完形填空。

1.GPT是单向编码,BERT是双向编码。GPT是基于Transformer解码器构建的,而BERT是基于Transformer编码器构建的。这意味着GPT只能利用左侧的上文信息,而BERT可以同时利用左右两侧的上下文信息,可以捕捉更长距离的依赖关系,并且更适合处理一词多义的情况。

2.GPT使用传统的语言模型作为预训练任务,即根据前面的词预测下一个词。而BERT使用了两个预训练任务:掩码语言模型(MLM),即在输入中随机遮盖一些词,然后根据上下文来还原这些词;下一句预测(NSP),即给定两个句子,判断它们是否有连贯的关系。这两个任务可以提高BERT对语言结构和语义的理解能力。

3.GPT可以应用于自然语言理解(NLU)和自然语言生成(NLG)两大任务,而原生的BERT只能完成NLU任务,无法直接应用在文本生成上面。这是因为GPT采用了左到右的解码器,可以在未完整输入时预测接下来的词汇。而BERT没有解码器,只能对输入进行编码和预测掩码位置的词汇。

2017年,谷歌发表了提出Transformer架构的论文。利用这个创新的深度学习网络组件,OpenAI 和谷歌同时启动了大语言模型的开发,但它们走出了不同的路线。谷歌的 BERT 采用上下文双向编码,训练时做完形填空;OpenAI 的 GPT 采用从左到右单向编码,训练时做文字接龙。BERT 双向编码获得的信息量大,在传统的 NLP 单项任务(例如文本分类、命名实体识别等)有明显优势;而 GPT 始终坚持从左到右的生成式训练,因为生成式的语言输出有无限丰富的表达能力,有机会走向通用人工智能。

大机器时代的启示

主题或观点

描述或总结

提高劳动生产率的重要性

保罗·克鲁格曼强调,只有生产率的提高能让一个国家变得富裕。

技术操作的简单性

加文·赖特指出,技术应由天才设计但由傻瓜操作。

工业革命对劳动力的影响

成年男性在工厂工作的数量增多,同时出现了全新的管理和技术岗位。

新技术与市场规模的关系

新技术能扩大市场规模,创造新岗位,解决旧岗位被取代的问题。

生产体系和人力教育的作用

这两个因素是新技术发挥使能效应过程中的关键元素。

提高人类的劳动生产率是技术发展的不懈追求。经济学家保罗·克鲁格曼(Paul Krugman)曾说:“经济萧条、通货膨胀或战争都会让一个国家陷入贫困,唯有生产率的提高能让它富裕起来。”

“技术由天才设计,由傻瓜操作。”经济史学家加文·赖特(Gavin Wright)曾这样说道。

图2.2 工业革命时期,由童工操作机器替代了成年手工业者

“自从蒸汽织机普遍使用之后,在工厂工作的成年男性数量日益增多,因为儿童不再适合操作蒸汽机器。”随着工厂规模增长,还出现了全新的管理和技术岗位——经理人、书记员、库管、会计、机械工程师,等等。这些都是机器带来的新岗位,并且对人力的技术要求比早期更高,从而也拉动了工资的上涨。

图2.3 新技术使能效应是如何产生作用的

以上的新技术使能效应(参见图2.3),始终围绕着市场规模起作用。做大蛋糕,才能吃到更多蛋糕。新岗位的就业数量与市场规模成正比,新技术要打开新市场,才能源源不断地增加新岗位,从而解决旧岗位被技术替代的失业问题。

在新技术发挥使能效应的过程中,有两个重要因素起到了关键的作用,分别是生产体系和人力教育对技术的主动适应。

大模型与智力革命

根据布鲁姆教育目标分类法(Bloom’s taxonomy of educational objectives),人类对知识的处理(Knowledge Processing)有六个层次:记忆、理解、应用、分析、评价和创造。大模型在这六层的知识处理中,都能发挥一定的作用,为人类大脑提供辅助

图2.7 人类对知识的处理层次

自然语言编程与脑机协作

1.激发模型的潜在知识和能力。

2.使模型理解输入的问题或任务,提供相关的回答。

3.改进模型的生成输出,提高可读性、连贯性和准确性

“提出一个问题往往比解决一个问题更重要。解决问题也许仅需一个数学上或实验上的技能,而提出新的问题,却需要有创造性的想象力,这标志着科学的真正进步。” ——阿尔伯特·爱因斯坦(Albert Einstein)

图2.9 会问问题比拥有知识更重要

在《高效能人士的七个习惯》一书中,史蒂芬·R.柯维(Stephen R.Covey)提出了任务授权的两种类型——指令型授权和责任型授权

序号

责任型授权的关键方面

描述或总结

1

预期成果

双方都需要明确并理解最终的结果。重点是在结果而不是方法上。具体描述预期结果和日程安排。

2

指导方针

确认适用的评估标准,并避免成为指令型授权。提前告知可能的难题和障碍。

3

可用资源

告知可使用的人力、财物、技术和组织资源,以取得预期的成果。

4

责任归属

制定业绩标准,用这些标准评估成果。制订具体的时间表,说明何时提交业绩报告和进行评估。

5

明确奖惩

明确告知评估后的结果,包括好的和不好的情况,以及可能的财物或精神奖励。

序号

解题思维链步骤

描述或总结

1

界定问题

明确问题的范围和假设,例如指定的地域和目标对象。

2

分解问题

将问题分解为若干个子问题或模块,例如按照不同地区或用途来划分。

3

估算数据

对每个子问题或模块进行合理的假设和估算,例如利用已知数据或常识判断。

4

汇总结果

将所有子问题或模块的结果相加或相乘,得出最终答案,并检查是否合理。

5

总结思路

简要回顾整个解题过程,并指出可能存在的不确定性和改进空间。

责任型授权

这种授权类型要求双方就以下五个方面达成清晰、坦诚的共识,并做出承诺。

1.预期成果。双方都要明确并理解最终的结果。要以“结果”,而不是以“方法”为中心。要投入时间,耐心、详细地描述最终的结果,明确具体的日程安排。 2.指导方针。确认适用的评估标准,避免成为指令型授权,但是一定要有明确的限制性规定。事先告知对方可能出现的难题与障碍,避免无谓的摸索。要让他们自己为最后的结果负责,明确指导方针,放手让他们去做。 3.可用资源。告知可使用的人力、财物、技术和组织资源以取得预期的成果。 4.责任归属。制定业绩标准,并用这些标准来评估他们的成果。制订具体的时间表,说明何时提交业绩报告,何时进行评估。 5.明确奖惩。明确告知评估后的结果。主要包括好的和不好的情况以及财物奖励、精神奖励、职务调整以及该项工作对其所承担的组织使命的影响。

如果问题较复杂或有难度,可以通过思维链的方法,向大模型传授解题套路,将大问题拆解成小问题和步骤,并以逻辑清晰的方式组织这些问题或步骤,从而引导大模型沿着特定的思考路径,以更系统、更连贯的方式回答问题。

下面举一个网络中流传的咨询公司面试题为例,如果直接提问,不给思路,大模型是无法解答的。使用思维链输入之后,大模型便给出了答案。

问题:深圳有多少渣男? 思路:这是麦肯锡面试题中常见的市场规模估算题,目的是考察申请者的逻辑思维、分析能力和计算能力。这类题目没有标准答案,但有标准的套路。

步骤: 界定问题:明确问题的范围和假设,例如指定地域指的是哪个行政区域,目标对象指的是哪些类型。 分解问题:将问题分解为若干个子问题或模块,例如按照不同地区、不同用途、不同密度和比例来划分。 估算数据:对每个子问题或模块进行合理的假设和估算,例如利用已知数据、常识判断、类比推理等方法得出每个模块的数量或比例。 汇总结果:将所有子问题或模块的结果相加或相乘,得出最终答案,并检查是否合理和一致。 总结思路:简要回顾整个解题过程,并指出可能存在的不确定性和改进空间。

在ChatGPT提示工程最佳实践中,“要注意对话中的语气和用词,避免使用随意或轻浮的语言,因为这可能导致沟通破裂。因此,我们应该保持尊重和专业的语气。” 大模型就像一面镜子,根据对面人类的态度和水平的不同,遇强则强。你专业它就专业,你随意它也随意。

自动驾驶里的分级标准,因为该领域涉及生命安全,对驾驶动作的容错性极低,分级也非常细致。 L1级,辅助驾驶,指车辆可以在一个维度(横向或纵向)完成部分驾驶任务,例如自适应巡航、车道保持等,但需要人类司机时刻监控和干预。 L2级,部分自动驾驶,指车辆可以同时在多个维度(加减速和转向)完成部分驾驶任务,例如特斯拉的自动辅助驾驶(Autopilot)等,但仍然需要人类司机时刻监控和干预。 L3级,有条件自动驾驶,指车辆可以在特定环境中(如高速公路)实现完全自动化的加减速和转向,无需人类司机干预,但当遇到复杂或异常情况时(如交通拥堵、事故等),需要人类司机接管控制权。 L4级,高度自动驾驶,指车辆可以在限定条件下(如地理区域、天气状况、速度范围等)实现完全自动化的行驶,在这些条件下无须人类司机接管或监控。 L5级,完全自动化或无人化,在任何条件、任何场景下都能够实现完全自动化的行驶,在任何情况下都不需要人类司机接管或监控。

在智能客服领域,可以简化为3级

图2.14 不同级别的业务流程

L1级,辅助客服,大模型可以在服务过程中的部分环节(例如查询信息、回答常规问题)提供响应,但仍然需要人工客服时刻监控和干预。这类似于自动驾驶中的辅助驾驶或部分自动驾驶。

L3级,有条件自动客服,大模型在标准的场景中(例如普通等级投诉、标准产品销售)实现完全自动化的服务,无须人工客服干预,但当遇到复杂或异常情况时(例如高等级投诉、申请特殊折扣),需要人工客服接管服务。这类似于自动驾驶中的有条件自动驾驶或高度自动驾驶。

L5级,无人化客服,在任何条件、任何场景下都能够实现完全自动化的客服,在任何情况下都不需要人工客服接管或监控。这类似于自动驾驶中的无人化自动驾驶。 生产率最高、最理想的业务流程是L5。顾客全程直接跟大模型对话。这需要大模型在这一领域的训练(包括业务知识、可能出现的各种情况)达到非常高的成熟度,同时业务场景也能容许少量的错误。 L5的一个变种方案,是让另一个人工智能来监控审核大模型对顾客的输出,但仍然保持无人化。

大模型应用的两种创新

类型

一句话描述

对市场和就业的影响

渐进式创新

持续、较小的改进,目的是优化现有产品或服务。

不会产生颠覆性影响

颠覆性创新

突破性的创新,通常会改变或颠覆既有的市场。

会对行业产生深远或颠覆性影响

从创新理论角度,技术变革可能带来两种创新:渐进式创新和颠覆性创新

图3.1 技术变革的两种创新对市场和就业的不同影响

渐进式创新是指对现有产品、服务或流程进行细微改进和优化,以提高性能、降低成本或提高用户体验。渐进式创新往往是持续性的、较小的改变,不会对市场或行业产生颠覆性的影响。 颠覆性创新是一种突破性的创新。其通常以大幅降低的成本和大幅提升的便利性,改变原有产品的市场定位和商业模式;或者,利用新产品实现原本满足不了的需求,从而为消费者带来新的价值,获得新的市场。颠覆性创新通常会对行业产生深远的影响,改变或颠覆既有的竞争格局。

知识工作型应用

应用领域

主要功能

关键技术或步骤

教育

教学资源提供与个性化学习项目策划

项目本位学习(PBL)、学生兴趣匹配

法律

内容检索与案件管理

嵌入式向量、数据预处理、案例分析

在教师从知识传授者往学习引导者和协调者转型时,大模型可以为教师提供相关的教学资源、案例和建议,帮助他们更好地理解和实施PBL。甚至在学习课程之前,让学生提出自己的个人兴趣,大模型将每个人的兴趣点与课程领域联系起来,策划成个性化的学习项目,让兴趣相近的学生分到同一组,这样可以增强学生的好奇心和学习动力,并通过项目实践获得更深的认识。

在法律领域中,安全性和真实性至关重要。ChatGPT采用的嵌入式向量(Embedding)技术是一种能够将关键词和搜索指令转换成向量的技术,可以支持本地文档库的文件问答、法律法规或内容检索等功能。引入嵌入式向量技术,可以显著提高搜索引擎的准确性和真实性,并进一步改善搜索体验。值得一提的是,该技术已被集成在法律AI助手CoCounsel中,为法律工作者提供了更为精准和高效的搜索与问答服务。

将个人案件管理库和GPT-4关联,在保证案件内容安全性的同时,利用该技术为后续的案件提供精准的匹配搜索结果。

■收集个人案件数据:律师需要先收集自己处理的案件数据,包括案件名称、类型、案情描述、当事人信息、法律问题、案件进展情况等信息

■数据清洗和预处理:律师将案件数据文件夹同步到法律AI助手CoCounsel中,CoCounsel负责对文件夹内容进行清洗和预处理,包括去重、格式化、标准化等操作,以确保数据的准确性和一致性。

■数据嵌入(Embedding):在对案件数据进行预处理后,CoCounsel采用嵌入技术将案件数据转换为向量表示,并保存在本地。这样既能支持后续大型模型处理和分析,也能通过向量化保证数据集的安全性。

■请求Prompt构造:数据向量化完成后,当律师输入查询关键词、时间范围、问题等内容,并希望获取相关案件信息及其对应文本时,CoCounsel将通过向量匹配本地的案件记录、法律文书或律师函中的具体文本,并将律师提出的问题和检索到的内容构造成特定格式的Prompt,请求大型语言模型GPT-4云端服务。此外,向量检索也能提供参考答案并提升查询结果的真实性和速度。

■支持案例分析:在CoCounsel的帮助下,律师能够利用该案件管理库支持自己的案例分析工作。通过输入案情描述或相关信息,他可以从数据集中获取相似的案例信息和建议,提供更好的决策和分析。同时,借助该库的能力,还可以调用GPT-4的分类、聚类、预测等功能支持案件核心内容的提取、关键信息的比对和查证等工作,以助推执业效率。

企业业务型应用

图3.3 智能语音引擎的运行机制

微调工作分为4个阶段:

第一阶段:环境配置和数据准备。准备微调训练相关的语料,训练数据主要由“用户提问+意图分发”的标签构成,例如: {“prompt”:“收到货发现不能贴身穿,怎么办?”,“completion”:“售后-退货询问-消极”} {“prompt”:“¿Podría ayudarme a recomendar algunos productos populares?«,«completion»:«售前-商品询问-积极”} 每类标签组合最好超过20条数据,准备的训练数据量最好超过200条以上。

第二阶段:数据加载和微调模型阶段。将准备好的训练数据交给IT算法同学,由算法同学选择不同价格、大小的基础模型进行训练。

第三阶段:数据加载和微调模型阶段。计算各个分类的精确率(Precision)、召回率(Recall)和F1值(具体计算公式见详细操作流程),验证模型微调前后的效果收益(微调带来了多大的指标增长),并回归测试新模型是否解决旧系统中的痛点case。

第四阶段:上线应用阶段。微调模型服务有收益,且上线后,持续观察智能语音系统的意图分发模块收益。当分类指标下降时,及时分析痛点case,判断是否需要启动新一轮微调。

图3.6 MidJourney Prompt Helper用户界面

图3.7 经过Prompt优化后的T恤设计方案

大模型应用的三重境界

在各行各业令大模型的应用落地,由于大模型适应场景的能力、成熟度、企业应用时间经验、企业业务性质等因素的不同,可能会经历以下三重境界。

图3.9 不同应用的信息量和容错率对大模型应用效果的影响

■第一重境界:此境界中,大模型与人类员工进行1∶1的协作,提高个人工作效率。

■第二重境界:企业在第二重境界中,面临业务流程调整和组织变革的挑战相呼应。

■第三重境界:企业基于大模型在本行业应用中的潜在优势,从头设计全新的业务,从根本上改变业务运作方式,或进入一个全新的市场。

大模型产业拆解

图4.1 大模型产业的分层结构

2023年2月,Meta发布了Meta AI大语言模型(LLaMA),这是一种基于开放数据集进行自监督预训练的大模型。

LLaMA主打两个特色:一是开放,即可以在非商业许可下提供给政府、开发社区和学术界的研究人员,让更多机构和个人能参与大模型的研究和探索,实现大模型的民主化;二是性价比,可以在大数据集的基础上缩小模型规模,找到模型性能和推理部署成本的最佳平衡。

从GPT-4的评价来看(参见图4.13),Vicuna完胜两个开源前辈LLaMA和Alpaca,略优于谷歌的Bard,相比ChatGPT-3.5略有不足。

图4.13 Vicuna跟4家大模型的对比

利用水平高一级的大模型(GPT-4)给其他的大模型做评价,是一种简便高效的方法。

大模型产业中,模型层的商业模式主要有以下几种:

(1)按模型使用付费 ■推理调用量,可根据用户输入和模型回答的token数量计费。 ■根据微调训练量、强化学习训练量计费。

(2)项目定制服务 ■闭源大模型的私域托管、模型裁剪定制等服务,单独收费。 ■开源大模型团队为客户定制开发和维护特定的模型,单独收费。

(3)大模型提供商同时开发运营自己的应用,在应用层获得用户和收益

ChatGPT短期内的收入有3种可能:

(1)当前,ChatGPT Plus按月订阅付费,20美元/月。

(2)插件库上线后,有机会通过软件商店的苹果税模式(苹果公司对开发者收入抽成30%),在插件库中的三方插件(例如订票、订酒店、订餐、购物、虚拟消费等)抽取提成。

(3)同时,可以在对话中插入个性化的广告,获得后向收入。目前New Bing已经在试水投放此类广告。

苹果手机(iPhone)的模式是“1+2”,大头收入来自用户付费购买,然后通过三方增值服务抽税

谷歌(搜索广告&安卓)模式是“3+2”,大头收入来自搜索广告,此外安卓系统提供的谷歌商店应用(Google Play)也对三方服务抽税。

我们将ChatGPT用户一分为二,即使用GPT-4的付费用户和使用GPT-3.5的免费用户。 从OpenAI公司模型的企业服务API的推理调用定价可以得知GPT-4的推理单价是GPT-3.5的30~60倍(选择30倍或60倍取决于上下文关联的文本长度需要8K还是32K)。虽然OpenAI公司采取定价策略,是要在高端客户上获得高利润,但这也说明GPT-4和GPT-3.5的推理成本差别是很大的。这个推理成本,就是ChatGPT服务里面最大的边际成本。

当GPT-4模型巨大,GPU很贵的时候,ChatGPT的边际成本也非常高,广告或抽税的每用户平均收入(ARPU)值无法弥补,这种情况下,必须采用苹果模式,即通过付费才能使用GPT-4。 相对而言,GPT-3.5模型的推理成本较低,如果需要对使用量加以限制,可以将边际成本控制在可接受范围内,采用谷歌模式,让部分用户免费使用GPT-3.5,通过广告和插件库抽税的方式,在短期内部分弥补边际成本,还可以通过软硬件优化来降低推理成本,扩展插件和广告主生态提高收入来谋求长期发展。 综合来看,苹果模式的商业回报率相对稳健,但规模受限。谷歌模式的用户规模天花板更高,但商业化较为不确定,这也是为什么谷歌之前不积极发展大模型应用、担心其冲击主营搜索业务的主要原因,即新的应用形态替代了搜索,但商业化回报率不足,将极大影响谷歌市值

“我愿意用我所有的科技来换取跟苏格拉底相处的一个下午。” ——史蒂夫·乔布斯(Steve Jobs),苹果公司前首席执行官

Character.ai是一款端到端自建大模型的个性化人机聊天应用(参见图4.16),其愿景是让“每个人都能拥有自己深度个性化的超级智能,帮助人们过上美好生活”。

图4.16 Character.ai人机聊天应用

个性化有两重含义:其一,用户可以选择不同的角色来聊天,历史上或现实中的名人(如苏格拉底)、小说电影动漫游戏里的人物(如游戏《马力欧系列》中的角色马力欧)、带有专业属性的角色(如心理学家),等等。 其二,用户可以自建角色,而且用户跟角色聊天的历史会一直记录下来,并用于后续的沟通,产生“你的聊天对象认识你”的效果。

互联网内容类应用的“二八现象”(少量付费用户,大部分免费用户),需要两种前提作为支撑:要么免费用户成本低,用广告收入来弥补,常见于视频应用;要么付费用户ARPPU(每个付费用户身上的收入)很高,靠付费用户养免费用户,常见于MMO大型多人在线游戏(Massively Multiplayer Online)。

关于大模型产业的对话:第1集

图4.18 企业如何选择大模型的不同方案

图4.19 GPU的不同定位和国产机会

LLaMA是大语言模型的Stable Diffusion时刻

图4.21 基于LLaMA的各种驼类动物项目

寒来暑往几度:AI泡沫与机遇

图4.27 如何对付AI系统的错误

关于大模型产业的对话:第2集

图4.42 大模型所处的周期阶段

图4.43 AI所处的周期阶段

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-14 08:58,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 yeedomliu 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 代序
  • 绪论
  • 我是一个大模型
  • ChatGPT是怎样炼成的
  • 大机器时代的启示
  • 大模型与智力革命
  • 自然语言编程与脑机协作
  • 大模型应用的两种创新
  • 知识工作型应用
  • 企业业务型应用
  • 大模型应用的三重境界
  • 大模型产业拆解
  • 关于大模型产业的对话:第1集
  • 寒来暑往几度:AI泡沫与机遇
  • 关于大模型产业的对话:第2集
相关产品与服务
向量数据库
腾讯云向量数据库(Tencent Cloud VectorDB)是一款全托管的自研企业级分布式数据库服务,专用于存储、检索、分析多维向量数据。该数据库支持多种索引类型和相似度计算方法,单索引支持千亿级向量规模,可支持百万级 QPS 及毫秒级查询延迟。腾讯云向量数据库不仅能为大模型提供外部知识库,提高大模型回答的准确性,还可广泛应用于推荐系统、自然语言处理等 AI 领域。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档