前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >探索 Scaling Law 的边界与 AI 芯片的新竞争格局

探索 Scaling Law 的边界与 AI 芯片的新竞争格局

作者头像
深度学习与Python
发布2025-02-06 19:56:47
发布2025-02-06 19:56:47
710
举报
文章被收录于专栏:深度学习与python

作者 | AICon 全球人工智能开发与应用大会

策划 | 李忠良

在 AI 的快速发展中,Scaling Law 的瓶颈带来了新的竞争态势。AI 应用,尤其是深度学习、大规模并行计算、推理和训练等领域,要求计算能力以非线性、指数级的方式增长。为了应对这种需求,AI 芯片的设计必须超越传统的通用计算架构,融入更多专用硬件、异构计算和创新的架构设计。

2024 年 12 月 14 日,在 AICon 全球人工智能开发与应用大会2024 北京站,【大模型智算与开发落地实践】专题圆桌交流中,阿里云智能政企事业部大模型智算负责人王浩博士、智谱 AI GLM 模型预训练 & 基础设施负责人曾奥涵、百川智能算法专家张宇鹏与阿里云高级算法专家李屾,共同探讨 Scaling Law 的边界与 AI 芯片的新竞争格局。

部分精彩观点如下:

  • 合成数据可能带来新的 Scaling Law。
  • 后训练并不是结束,而是一个新的开始。
  • 大模型目前的发展与计算机最初发明时的情况很相似。

以下内容基于现场速记整理,经 InfoQ 删减。

主持人:大模型预训练阶段的 Scaling Law 还可以持续吗?算力的突破是否可以带来新的 Scaling Law?

曾奥涵: 这个问题有两个方面,一是预训练阶段的 Scaling Law 是否能够持续,二是是否有突破能带来新的 Scaling Law。当前,大模型预训练主要依赖过去 20 年互联网语料的积累和计算能力的提升,尤其是大规模 GPU 的使用,使得浮点数运算成为可能。这两者的结合推动了 Scaling Law 的持续,可能跨越 2 到 3 个数量级,甚至达到 5 到 6 个数量级。

然而,预训练阶段的 Scaling Law 是否能持续呢?因为互联网语料是人类创造的,当数据用尽时,基于互联网语料的 Scaling 也将受限,训练模型不可能超越人类能力。但是我认为之后的合成数据,像 O1 这种推理的这种方式也可能带来新的 Scaling Law。

李屾: 确实,互联网上的数据基本已经被收集完了。接下来,我们可以关注的是非互联网领域的数据,很多企业和政府都有丰富的垂直行业数据。尽管这些数据对公开的 C 端模型较难获取,但在 G 端和 B 端,结合这些数据和算力的优势,应该能进一步提升模型的整体性能。此外,除了预训练,很多人现在也在探索后训练的方法。融合企业特性数据并加强对后训练的关注,尤其是在场景能力上的提升,能进一步增强大模型的表现。另外,我们还需要关注如何找到数据和训练方法之间的平衡点。

张宇鹏: 当前我们已经基本用尽了可以收集的互联网数据,比如千问和 LlaMa,这类数据集接近 20TB,实际上,这么大的数据量已经涵盖了几乎所有能想到的知识。但另一方面,未来数据的扩展可能不仅仅是收集更多数据,而是通过数据合成来提升数据质量,特别是一些私域数据和之前互联网没有的数据。这种转变意味着我们不再单纯追求数据量的增加,而是注重数据的质量和推理能力。

王浩: 我认为,目前的智能涌现并没有达到一个理想的水平。毕竟,人类的智能是非常复杂的,我们不仅能听、能说、能看,还能从整体上理解世界,做出综合的思考。从根本上来说,大模型本质上是一个知识模型,依赖互联网语料进行学习,这些语料里面包含了大量的固有知识和一些新信息,虽然这些新信息也能帮助提升模型的表现,但它们并不等同于真正的“知识”。因此,当前的大模型更多的是在处理这些信息,而不一定具备深层次的推理和认知能力。比如,它们能够做一些简单的问答任务,回答用户的问题,但并不意味着它们具备像人类一样的理解力。

关于未来智能的提升方向,首先,我认为一个值得探索的问题是:多模态能力是否能促成智能的涌现?多模态不仅仅是单纯的信息融合,它可能是推动智能发展的关键因素。通过多种感知通道的结合,模型是否能获得更加丰富的理解能力,从而涌现出更高层次的智能?每个人在思考问题时都应该有自己的假设和观点,提出属于自己的 idea,以此推动智能的发展。

主持人:OpenAI O1 的推出会对未来的算力格局产生什么样的影响?

张宇鹏: 虽然目前预训练成本很高,但随着 O1 的推出,未来这种成本将逐渐降低。主要成本集中在推理阶段,每次推理大约需要输出两到三千个 token。如果用户量足够,推理成本可能是预训练的几十倍甚至几百倍。随着效果提升并吸引更多用户,预训练成本会逐渐降低,预算也会更多投入到预训练中。

曾奥涵:O1 的算力分配大致分为三部分:预训练算力、后训练算力和推理算力。最初,大家认为预训练占用了 90% 以上的算力,但随着应用的不断发展,推理的算力需求逐渐增加。O1 中还涉及到后训练,特别是强化学习训练,它不仅能够进行探索,寻找最优解,还能在训练过程中不断调整。

目前,后训练可能主要依赖数学代码,但未来它可能会扩展到更广泛的实际场景,如任务自动化和工具调用等。这一阶段的学习可能需要更多算力。此外,随着部署模型的推理需求增加,思考时间可能会从现在的几分钟增加到一小时甚至更长,特别是在处理复杂任务时,这将对推理算力的消耗带来更大压力。

李屾:O1 的推出确实让我们对后训练阶段有了更多的期待。值得注意的是,后训练并不是结束,而是一个新的开始。当我们把模型应用到实际场景时,我们希望模型能够自我进化和自我学习。在这个过程中,我们不仅会通过蒙特卡洛方法进行探索,获取正确和错误的反馈,还能在实际应用中收集更多数据。

然而,这也带来了许多实际问题。例如,不同用户提供的反馈可能需要我们花费更多时间思考如何将这些反馈有效地融入到模型中。因此,从自学习的角度来看,经历了预训练和后训练后,模型仍需要不断更新,就像我们从学校走向职场,持续学习新知识一样。这一过程也非常消耗算力,过去我们可能更多关注预训练阶段,但未来除了预训练,后续的算力消耗也同样会非常可观。

王浩: 我想提醒大家思考一个问题:进入 O1 阶段是否意味着我们无法训练出更好的大模型?目前很多人关注大模型的推理能力,认为随着模型变大,推理能力也会增强,但这仍是一个假设,尚无定论。推理是通过序列化步骤进行的,但与人的认知过程不同。我们尚不完全清楚人类推理的具体原理。虽然我们可以提供完整的数学步骤给大模型,它是否能从中得出未解的假设,仍然是一个问题。

我们不应被现有大模型能力所局限,确实我们看到大模型的推理能力具备思考使生成结果更精确,但是否真正具备理解认知能力仍需验证。O1 的本质仍依赖于概率分布,因此我们需要审慎看待它的推理能力,很多人类推理过程需要被数字化出来用于被大模型持续学习,未来的应用价值可期。

主持人:如何通过定制化的 AI 芯片来降低大模型预训练的成本,进一步提升计算效率跟降低能耗?

李屾: 我认为,定制化不仅仅是针对 AI 芯片,实际上还包括机器能够承载的芯片数量。比如,如果一台机器能够定制一种芯片,并且支持 32 张卡,那就能大大减少网络开销。因此,问题不仅仅是芯片本身,另一个关键问题是如何通过定制化芯片实现目标。比如,我可以通过一台机器拉齐 32 张卡,前提是这台机器的总线足够强大。

然而,这也带来了一个实际问题:定制芯片的可推广性如何?它的出货速度如何?这两个因素决定了定制化的规模。如果无法大规模推广,面临的挑战不仅是英伟达的芯片卡,还有英伟达的生态系统。现在做深度学习的几乎每个人都使用过英伟达的库,而如果定制化芯片缺乏生态支持,最终还是无法广泛应用。如果没有生态支持,我的投入产出比可能会很低。即使定制化的芯片非常强大,但如果无法应用,成本摊薄效果差。

主持人:现有的 AI 芯片架构(如 NVIDIA 的 GPU 和 Google 的 TPU)在应对推理和训练需求时,是否会面临效率和性能的瓶颈?AI 芯片的硬件与软件结合(如 CUDA、TensorRT)的优化是否会影响竞争格局?新的计算框架和工具是否有可能成为行业标准?

曾奥涵: 这个问题实际上涉及到两方面:推理芯片和训练芯片。推理芯片的定制化通常意味着模型结构已经确定,比如针对 Transformer 模型进行优化,提升推理效率。推理芯片的优势在于能够高效生成大量 token,而像 NV 这样的芯片更偏向于训练,推理速度相对较慢。举个例子,像 Grok 每秒能生成两到三千个 token,而原先的 NV 每秒只能生成 100 个,这种差距是明显的。

如果 O1 的任务扩展能力能够得到推广,那么定制推理芯片是有潜力的。但定制化的风险也很高,因为越多的定制化意味着越低的抗风险能力。比如,英伟达原先一台机器可以装 8 张卡,现在 72 张卡都可以装在一台机器上,这实际上是为了 MO1 的需求。但过度定制可能会限制未来的灵活性,一旦出现新的趋势,可能需要转换思路。相比之下,标准化和规模化的方案,像谷歌的 TPU,可能是一种更好的方式。这种方法并没有过度依赖定制化,而是通过堆叠相同的组件来提高性能。

张宇鹏: 我对定制化芯片非常期待。以现在的 Transformer 为例,大家都知道它已经用了两年多,基本没有什么大的变化。如果有一家公司能够推出定制化的 Transformer 芯片,并且能够为我们提供便捷的使用体验,比如支持 CUDA 生态,让我们能够在这种 GPU 上训练 Transformer 模型,那我会非常接受这种方案。如果它的速度能比英伟达快十倍,且成本更低,那我会对这种发展充满期待。

王浩: 从美国企业结构来看,它并不追求无休止的竞争。举个例子,像亚马逊这种公司,它已经成功成长,并且不会再出现第二个类似的企业。而与国内不同,国内电商竞争非常激烈。对于英伟达来说,至少在短期和中期,它会依靠强大的生态壁垒继续保持竞争力,尤其是在训练芯片的供应上,它仍然是最具竞争力的,并且会获得国家支持。

但未来,我们希望芯片能够更加普惠。现在芯片依然非常昂贵,因此我们可以预见会有一个新的市场和赛道被激励出来。虽然目前还没有出现超级 APP,但这正是我们期待智能体能够覆盖千家万户,进入各行各业应用场景的原因。如果这种超级 APP 爆发,将有助于推理技术的进步。在工业革命的早期阶段,很多改变是渐进的,甚至可能五年后我们会看到全新的变化。我们也许会看到推理芯片的爆发,尤其是在国内,国内芯片厂商已经取得了不错的进展。不过,这也涉及到技术方面的问题,比如异构计算如何协调工作,尤其是不同的异构卡需要屏蔽掉。因此,我们也期待国产芯片能推出统一的标准。

主持人:随着大模型的规模不断扩大,数据和计算资源之间的平衡如何保持?未来的 Scaling Law 是否需要考虑更多的资源优化策略?

曾奥涵: 尽管存在 Scaling Law 的放缓趋势,也就是说随着数据量的增加,智能涌现的速度可能会减慢,但模型的参数和效率曲线依然可以得到改善。例如,原本需要一个 405B 参数的模型才能达到 GPT-4 的水平,但随着训练方法的改进和数据优化,现在一个 72B 的模型就能接近 GPT-4 的表现。未来,可能甚至通过更小的模型(如 30B、14B、7B)也能实现类似效果。因此,尽管 Scaling Law 可能放缓,预训练效率的提升一直在持续,而且发展速度非常快。早期大家曾认为 OpenAI 的模型非常小,觉得难以置信,但现在已经证明,确实不需要那么多参数。这意味着,模型效果和成本的平衡点一直在不断优化。

张宇鹏: 首先,我认为小模型的能力还没有被完全挖掘出来。我们曾尝试在 7B 模型上减少一些参数,结果发现随机删掉一些后面的层,Benchmark 的结果几乎没有影响。这表明,许多参数实际上是冗余的。

最近我们注意到,LlaMa 3.1 的 405B 模型发布后,LlaMa 3.3 的 70B 模型也能达到相同效果,甚至 Phi-4 只用了 14B 参数就能与 65B 的效果持平。此外,有报告显示,大模型的参数量平均每 3.3 个月就会减半,但效果依然持平,这个速度非常快。例如,LlaMa 1 时代 70B 的效果现在可能连 7B 模型都能超过。因此,我认为,随着技术的进步,未来 7B 甚至 10 几 B 的模型就能达到类似 GPT-4 的效果,这将引发一个应用爆发期,大家都可以轻松进行预训练、微调,甚至在手机上进行调用,极大降低成本。

李屾: 这个问题让我想起计算机最初发明时的情况。当时的计算机系统庞大得像两三层楼,算力和现在的设备相比简直像玩具。而随着技术的进步,计算机体积越来越小,计算能力却大幅提升。我觉得这与大模型当前面临的局面非常相似。过去几年,我们使用的大模型受限于数据和训练技术,很多潜力未被完全释放。未来 5 到 10 年,随着技术突破,我们有可能用更小的模型来完成更复杂的任务。关键的一点是,计算机能够迅速发展的原因是最终走向了民用,并且迎来了移动化。如果大模型能够在未来让每个人都能用自己掌握的资源进行预训练和微调,并降低使用门槛,那么技术需求将会非常庞大,届时大模型的成本也将大幅降低。

观众: 现在的 GPU 架构使得训练和推理变得相对高效,这也是我们看到 GPT 模型如今发展成这种状态的原因。那么,是否可以认为我们的 AI 模型架构正在推动我们当前的 Scaling Law 呢?

曾奥涵:Scaling Law 的成功主要依赖于两个因素:首先是大规模互联网数据的积累,其次是 GPU 架构能够支持大规模的浮点数运算,并且具备良好的通信设计,使得多个 GPU 卡能够高效连接,进行大规模的计算和训练。同时,Transformer 架构非常适合在 GPT 模型中进行并行训练。正是这些因素的结合,才使得 Scaling Law 得以实现。

观众:对于国产软件生态,大家期望它达到什么样的标准,才能真正吸引大家去投入精力使用?在这个过程中,哪些因素最为关键,能够促使大家去尝试并投入使用呢?

张宇鹏: 我们在做预训练时,不仅使用过英伟达的产品,也试过一些国内大厂的芯片。适配过程非常痛苦,需要重写底层脚本,这对于创业公司来说,时间成本是难以承受的。即使某些卡便宜一半,算力相同,但为了适配而花费的时间更为昂贵。因此,大家更倾向于选择“开箱即用”的卡,不愿意花时间去适配。

不过,随着规模的扩大,成本优化变得更加重要。如果国产卡能够提供相同算力但低 10 倍的成本,我们会愿意尝试。此外,还需要看到成功案例。比如,英伟达能训练 400 亿参数的模型,其他公司是否能在自有架构上成功训练模型,如果能做到且成本更低,我们会考虑采用。

李屾: 国产卡和驱动软件的适配,最关键的点是能否提供一个转换器,将现有 CUDA 上跑的任务直接迁移到国产生态中,同时保证功能的精度。如果能够覆盖 CUDA 的功能,哪怕是延迟两到三个月,只要能追赶上并表现出良好的适配性,我认为国产卡是有希望的。

另外,除了芯片本身,像预训练时的 failover 机制也很重要。以往基于英伟达卡的任务管理方式能否迁移到国产卡上,国产卡是否能支持这些功能也是关键。如果国产卡能够支持这些功能并做到自动适配,那它的前景仍然值得看好。如果能够在国产卡中建立统一标准,使得所有卡都能兼容,只需要适配一次,其他卡就能顺利运行,那国产卡将形成自己的生态,甚至有可能与英伟达竞争。

观众:这可能也解释了为什么从前几年的芯片公司如雨后春笋般涌现,到现在,像无问芯穹、面壁智能、硅基流动等 AI Infra 公司也纷纷出现。我想知道各位老师对于这些第三方公司怎么看?他们是否能够解决当前面临的问题?

王浩: 我认为这些新兴公司都很有潜力,能够让 AI 更普惠。无论是发布开源模型还是快速上架使用,都会加速应用的普及,推动算力的普遍应用。但目前的关键问题依然是,超级应用还没有真正出现。外界虽然讨论得热火朝天,但我们还没有看到真正的突破。尽管如此,我们不需要感到沮丧。过去一两年,大模型的认知已经发生了很大变化,大家对于行业的理解也在逐步深化。因此,我们还是期待超级应用能够在各个行业场景中爆发,尤其是在智能办公、医药、法律等知识驱动的领域。我相信未来 AI 将会爆发,尤其是在 2025 年,AI 的大年即将到来。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-02-06,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档