摘要
现阶段语言大模型已具备了AGI非常核心的理解和推理能力。
2024年已经过去了一半,我们离AGI的距离拉近了多少?离实现AGI还有多久时间?能实现AGI的终极路线是什么?
曾推出国内首个大模型「悟道」的北京智源人工智能研究院,在在第六届“北京智源大会”上给出了一些答案。
在智源研究院院长王仲远看来,当前基于大模型的人工智能技术,实现AGI 可能只需要四五年。如果目标是追求AGI,特别是通过使用多模态大模型实现AGI,相比DiT,自回归模型(auto regressive)才是终极的技术路线。
在未来,大模型将以数字智能体的形态与智能硬件融合,以具身智能的形态从数字世界进入物理世界,同时,大模型这一技术手段可为科学研究提供新的知识表达范式,加速人类对微观物理世界规律的探索与研究突破,不断趋近通用人工智能的终极目标。
“北京智源大会”上,智源研究院还发布了一系列在语言、多模态、具身、生物计算大模型的前沿探索和研究进展以及大模型全栈开源技术基座的迭代升级与版图布局。
图片来源:智源研究院
在大会期间,王仲远接受了极客公园在内的媒体访问。以下为对话整理(有删减):
Q:目前国内的大模型都在经历降价潮,对此怎么看?
王仲远:有利有弊。一方面,某种程度上的降价对于开发者去开发自己的应用场景,然后去接入大模型去做更多的尝试,是有一定的价值;另外一方面,如果降价导致收入低于成本,可能不利于大模型的持续迭代和优化,因为这些过程需要巨大资金投入。我也认为中国的大模型不应该停留在GPT-4,而应寻求建立一个健康的产业生态和找到合适的商业模式,以实现可持续发展。
Q:价格战会对产业和开发者带来哪些影响?百模大战会不会很快有洗牌?
王仲远:对于开发者而言,价格战显然是有利的。当前,开发者的选择非常多,例如智源的 FlagOpen 提供了针对大模型全栈的解决方案,包括训练框架、清洗工具、模型算法以及支持不同芯片的独特算子。开发者可以选择开源社区的工具,也可以利用商业模型的降价来尝试不同公司的模型效果,从而获得更好的资源和支持。
关于百模大战是否会很快引发市场洗牌,我无法直接对这个问题直接给出一个明确的答案,毕竟我们只是一个科研机构。我们希望看到整个产业能够更加健康地发展,避免出现劣币驱逐良币的情况。
Q:大模型降价潮下,价格和价值之间如何衡量?
王仲远:我个人认为,现阶段对于应用开发者而言,选大模型时优先考虑的肯定不是性价比,而是模型的实际效果。开发者首要关注的是所选的大模型是否真正具备人工智能的能力,能否为自己的产品赋能,而不是选择一个表现不佳的“人工智障”模型。在这个基础上,我相信价格最终会达到一个合理的水平。
实际上,如果一个大模型被广泛认为特别好用,随着使用规模的扩大,规模效应自然会显现。模型的规模上去了,其价格以及工程师们通过各种工程架构系统优化所带来的成本降低也会随之而来。因此,当下理性客观的开发者在选择大模型时,应该不太会将价格作为主要考虑因素。 Q:如今 AI 基建也进入了拼应用的阶段,您觉得具体的这个落地场景有哪些?您重点关注什么领域?
王仲远:首先,正如我之前提到的,国产大模型的能力已经逼近GPT-4,具备了支撑应用的条件。我个人预测,未来两三年内我们会看到大量应用的产生。应用可以分为B端应用和C端应用。
B端应用目前相对明确,因为许多大模型已经在多个场景中广泛应用,几乎覆盖了所有行业。
在2023年之前,可以称之为弱人工智能时代,那时的人工智能只能针对特定场景、特定任务训练特定模型,从而达到特定效果。
然而,2023年之后,人工智能逐步进入通用人工智能时代,其最大的特点是泛化性、通用性和跨领域的特性,这将几乎影响所有行业。
一些行业的影响会更快,比如大模型在生成摘要方面效果非常好,因此对所有与文书相关的工作、文案处理等效率提升作用显著。
再比如,当前的文生图、文生视频技术,虽然还处于早期阶段,但已经能够产生许多有创意的图片和视频,这些都是提升效率的工具。
在金融保险、医疗教育等行业,人工智能的作用同样显著。只要与这些能力相关,各行各业都会受益,并且未来会不断出现好用的工具。大模型作为生产力和效率工具的作用非常明确。
C端应用方面,大家更希望看到爆款应用的出现。回顾移动互联网时代或更早期的技术革命,每次新技术的出现都需要一定的周期,包括技术能力的提升、成本的降低以及硬件的支持。当这些条件具备时,能够解决真实用户需求的C端爆款应用才会出现。
因此,对于C端爆款应用,我们还需保持一定的耐心。即使在其他国家,目前也尚未出现C端的爆款应用。未来一两年内,我们可能会先从B端看到非常好用的工具,然后C端应用会逐步出现。
此外,我还想补充一点,智能体(Agent)很有可能会成为爆款应用的一个方向,大模型可以让它成为真正意义上的智能助理。如果每个人都能拥有一个足够智能和好用的助理,这种科技带来的平权将催生重大的产业变革。这可能是C端应用的一个重要方向,也是令人兴奋的前景。
Q:大模型在手机上处于什么样的阶段?
王仲远:目前AI模型在手机端的应用还处在非常早期的阶段。由于当前手机硬件能力的限制,手机尚无法运行真正意义上的大模型。那么,它能运行的模型大概是什么规模呢?我们这次发布了一个轻量级的图文多模态大模型,叫Bunny3B、4B、8B。这样的轻量级模型或许有可能在手机上运行,但其智能化水平、解决问题的能力和推理能力显然比真正意义上的大模型要差得多。
对于C端用户来说,他们对模型的全方位能力非常敏感。如果某些指令或期望的效果未能得到满足,他们很可能会抱怨。这也是为什么基于大模型的许多C端应用留存率依然不高,因为在用户留存率不够的情况下,很难产生真正的爆款应用。
结合手机端的应用还处在非常早期阶段。要实现真正的杀手级应用,需要天时地利人和:不仅需要大模型本身能力的提升,还需要轻量化后的模型依然能达到令人惊艳的效果,比如能够实现顶尖大模型90%的能力。当最优秀的轻量级模型能达到这一水平时,手机端和PC端的应用才会相应爆发。
这包括模型和硬件的提升,手机厂商也需要愿意将能够运行大模型的芯片内置到手机中。此外,端侧和云端如何协同、隐私问题如何解决,以及如何满足用户的最大需求等问题都需要得到完美解决。只有当这些条件都具备时,真正的爆发点才会到来。所以,目前我们仍处在非常早期的阶段。
Q:从22 年底到现在我们也说过这个卷参数,卷应用,从圈内人的这个视角来看大模型现在进入到了一个什么样的阶段?
王仲远:我们不能够高估一次技术革命的速度,但也不能低估一次技术革命它的深度和广度。历史上每次工业革命的持续时间都不是一两年,而是数十年,而且会对生活的各个方面产生持续而深远的影响。
之前的人工智能其实仍然是「弱人工智能」,一些最本质、最深层的问题,比如对文字的理解、推理问题一直没有被解决,所以在可能大概在三四年前,我觉得可能人工智能第三次浪潮有可能会陷入低谷。
但当前基于大模型的人工智能技术,尤其是可能的通用人工智能的发展,有可能成为真正意义上的第四次工业革命。
几年前,我可能会认为实现通用人工智能(AGI)可能还需要四五十年的时间,但现在我觉得可能只需四五年。
放到整个历史的长河来看,所有的这一切都非常的正常,而且我们的速度还挺快的。无论是模型迭代的速度,还是未来可能出现的B端和C端杀手级应用,我坚信它们一定会到来。
只是可能绝大部分的用户,可能要等到这些技术真正爆发并广泛应用后才会意识到其影响,预计这种进展可能会在GPT-4及其后续版本中体现出来。
Q:大模型怎么样赋能机器人? 王仲远:智能体到底存在数字世界还是存在物理世界?这就非常有意思了。
智能体通常最初存在于数字世界,比如在手机或电脑上的智能助理,它们通过软件和算法执行任务和交互。随着技术的发展,这些智能体可能会进一步发展成为具有物理实体的机器人,那么这就到了具身智能大模型。
当然因为硬件的发展速度现在比不上大模型的迭代速度,几乎是每个月都可以看到至少 5 个、 10 个全球有影响力的大模型发布,但硬件还远没有到这种迭代的周期和速度,硬件通常的迭代周期和速度还是以年来计算的,这就意味着一方面大家可能现在会看到具身智能人形机器人在过去这一年突然间变得非常火热,但也请大家其实要保持客观理性的来看待具身智能大模型,包括人形机器人的技术发展周期,要能够接受它在未来几年内可能进入到低谷,直到它跨越真正的周期,迎来真正的爆发。
但是我坚信智能体会从数字世界进入到物理世界,具身智能也会跟世界模型相互促进,并最终实现AGI。
Q:智源本次发布的智能超声机器人和生物计算法模型,都是聚焦于医疗领域,为什么关注这个?
王仲远:这个项目是跟清华大学和 301 医院一起联合研发的,应该是全球首创的智能心脏超声机器人。
它是从心脏超声做起,但是它并不局限于此,我们正在把它的能力拓展到人身体的其他部位的超声,不过智能心脏超声机器人,实际上更属于具身智能的范畴。
然后 OpenComplex 生物计算模型,属于这个 AI for science 的范畴,那么刚才提到了我们认为大模型最终会进入到真实的世界,而不会只存在于数字世界里面,那么宏观的世界就是机器人,微观的世界就是生命分子,这是我们布局这两块研究的一个很重要的原因。
心脏智能超声机器人属于具身智能在医疗领域的应用。OpenComplex其实可以用在提升药物研发的效率,因为药物研发上有一个双十定律,就是一款新药从立项研发到真正能够上市,它可能要耗费 10 年的时间,超过 10 亿美金。
所以 AI 加药物研发或者 AI 制药是过去这些年确实是非常热的一个话题。那么我们将生成式人工智能技术或者生物计算大模型应用在 AI 药物研发,除了能够做化合物的筛选和预测这种小分子的药,它甚至能够给制药带来新的可能性,就把大分子蛋白质 RNA 这种制药的可能性都添加进去,变成一种新的可能的制药的一个方式,这是一个从 0 到 1 的可能性的突破。 至于为什么关注医疗领域,从研究的角度来讲,我们其实布局的是具身智能大模型和生物计算大模型,而且我们的这些模型在医疗领域能发挥比较好的作用,尤其医疗是关系到每一个人的,那么对于像智源这样的科研机构,我们肯定还是希望能够对国计民生,对于整个全社会能够做出一些底层的贡献。
Q:那接下来智源还会在具身智能上关注哪些领域? 王仲远:具身智能未来仍然是非常重要的一个方向,会是我们重兵投入或者集中资源的投入的方向。
刚才讲了具身智能距离真实的应用或者说对产业化还是要有比较长的时间,大家对于具身智能,对于人形机器人还是要保持理性客观的看待,它里面依然有非常多的需要亟待突破的问题,包括缺乏类似于ImageNet的大规模数据集,缺乏像 GP3.5 这样的 「ChatGPT 时刻」,也缺乏杀手级的场景。
我们接下还是会依托智源在大模型,尤其是多模态大模型的技术优势,去做技术突破;同时我们会联合像清华、北大、中科院这样的高校,也会联合包括像银河通用以及我们自己孵化的领视智远这样的企业,也非常欢迎更多的企业跟我们一起,搭建一个具身智能的创新平台,联合包括上下游的供应链的企业,通过具身智能创新平台来解决最重要的数据模型和场景这几个面的重大突破,推动具身智能技术的发展。这是我们下半年和明年的一个重要工作重点。
Q:就多模态而言,auto regression 对于 DiT是否具有颠覆性? 王仲远:首先在仅仅从技术上判断,我们认为将来 DiT 不是终极的技术路线。当然 DiT 毫无疑问能够达到一个可用的产品级别。
然而,如果我们的目标是追求人工通用智能(AGI),特别是通过使用多模态大模型实现AGI,我们认为自回归模型(auto regressive)在将不同模态,尤其是语言大模型进行整合方面具有重要意义。我们甚至认为像OpenAI的ChatGPT和Sora等产品线在未来有可能进一步融合。 Q:智源大致从什么时候开始走自回归路线的?是否中间也是走过像 DiT 这样的路线?
王仲远:目前我们在内部没有走过 DiT 的路线,但关注过 DiT 的论文。
我们现在正在训练中的模型叫 Emu 3,其目标是实现原生多模态世界模型。我们相信,当这个模型最终发布时,它的效果和影响力会非常重要。然而,这条技术路线非常难。我们选择这条路线的原因是智源不追随企业界已经复现和相对成熟的路线,而是致力于探索多模态技术方向的终极路线。 智源选择了一条我们认为在多模态方向上的终极技术路线,这条路线非常困难。即使是 Google 的 Gemini 也未完全实现这一目标。Gemini 实现了图片、文字、图像、视频和声音的输入,但输出的只是图像和文字。GPT-4 集成了音频,但还没有完全实现视频的生成和理解。
因此,这项技术本身具有很高的难度,但这种难度恰恰适合智源研究院来挑战,因为我们的使命是实现真正的技术突破和原始创新。同时我们也会尊重科学规律,并接受失败的可能性。并不是创新就一定会成功,但即使失败也是非常有意义的创新。 Q: auto regressive路线如果要成功的话,对于底层算力的要求很高。 王仲远:我们现在依然在做的是技术突破、探索和创新。但因为我们作为一个科研机构,我们的算力确实还是极其有限的,我们更多的是要把这条技术路线给趟通,要进入到产业化,还是需要真正有重大算力的公司跟我们合作。 Q:这个事要做成需要怎样的算力条件? 王仲远:当下的资源不能说够但至少让我们可以去探索。我们很希望为中国储备多模态方面方向的技术。 为什么我们选择自回归技术?其实自回归(auto regressive)和 Transformer 等技术并不是全新的原创技术,ChatGPT 本质上就是基于自回归技术。
所以,我们是选择了一条我们认为适合多模态技术的原生路线,这条路线需要从最原始的层面融合不同的模态。同时,这条路线具有可扩展性,既可以融合文字、图像和视频,也可以方便地融合音频和3D内容。
如果将来有一天,我们觉得这条技术路线探通探索成功了,到了真正能引起更广泛关注的时候,它的技术又可以进入到产业界,在那个时候一定需要更海量的算力。 Q:刚刚说到终极的技术路线是自回归,属于原始创新,可能会失败,那么什么环节、什么地方最难?
王仲远:每个环节都很难,第一数据处理。多模态,文字算一种模态,图像算一种模态,视频算一种模态,声音算一种模态,这些模态到底应该怎样tokenizer?不同的模态到底怎么表达成token?这本身就是一个技术方向或者研究问题。
当这些 token 训练的时候,到底用什么样的数据配比,ROC曲线什么是合理的,模型先后训练什么,有非常多的训练的技巧,能不能形成有效的算力支持训练,最终评判实际达到的效果能不能看到Scaling Law?能不能看到随着数据量的提升,参数规模的提升,模型效果也在提升?这些都是亟待被突破验证解决的问题。
Q:现在各家大模型强调处理文本的数量,如何评价这种做法?大模型应该真正注重哪些维度?
王仲远:长文本肯定是一个大模型非常重要的特性,但不是唯一特性。大模型一定要关注的是它的理解和推理能力,我自己相信 AGI 到来的会是大模型的理解推理能力,尤其是那些理解上的,理科上的能力,比如解数学题、比如能不能够真正的编程,然后能够像人类一样进行理解、进行思考、进行推理,这个是决定达模型是否具备足够的通用性和泛化能力的一个核心。
Q:怎么样让大模型更加像人类这样思考?
王仲远:大模型在理解和推理能力上的跃升,是近年来人工智能领域的一个重要突破。这个进步与大模型的 Scaling Law 有关,即随着模型参数、训练数据和计算量的增加,模型的性能显著提升。这也是过去十几年我一直都在追逐的方向,让机器像人类一样理解自然语言。 大模型之所以能够带来技术上的可能性,很大程度上是因为其基础是神经网络,而神经网络的核心结构——神经元结构,自1943年提出以来一直没有改变。尽管 Scaling Law 在近几年被广泛提及,但其实这个概念已经存在了七八十年。每次神经网络和人工智能的快速发展,都是由于模型参数、训练数据和计算能力的重大跃升。 所以模型能不能够继续提升它的推理能力?继续推提升像人类一样思考的能力,这恰恰是大模型或者通用大模型需要去解决的问题,我们也很期待它能够持续展现这样的一个能力,因为只有当这样的能力出现,才能够真正在各行各业实现真正的应用突破。
领取专属 10元无门槛券
私享最新 技术干货