首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

速递丨零一万物全新SOTA旗舰模型亮相,中国大模型中首度超越 GPT-4o,获中美 AI 竞技至今最佳成绩

10月16日,继千亿参数模型 Yi-Large 之后,零一万物正式对外发布新旗舰模型 Yi-Lightning,在国际权威盲测榜单 LMSYS 上,Yi-Lightning 超越硅谷知名 OpenAI GPT-4o-2024-05-13、Anthropic Claude 3.5 Sonnet,排名世界第六,中国第一。这是在 LMSYS 这一全球大模型必争的公开擂台上,中国大模型首度实现“超越 OpenAI GPT-4o ”的最佳成绩!

在一众国内模型中,Yi-Lightning 再次拔得头筹,成为含金量最高的“中国大模型第一”。零一万物紧随 OpenAI、Google 之后,与 xAI  打平,进击全球前三大模型企业,以优异模型性能稳居世界第一梯队大模型公司之列。

模型性能升级之余,Yi-Lightning 的推理速度也有大幅提升,首包时间较上半年发布的 Yi-Large 提升一倍,最高生成速度提速近四成,堪称“极速”。同时,Yi-Lightning 还在保持高性能的同时,实现了推理成本的进一步下降。

Yi-Lightning 于 LMSYS 上超越 GPT-4o,继续领跑国内大模型

LMSYS Org 发布的 Chatbot Arena 凭借着新颖的“真实用户盲测投票”机制与 Elo 评分系统,已成为全球业界公认最接近真实用户使用场景、最具用户体感的“大模型奥林匹克”。

随着 Yi-Lightning 的加入,LMSYS ChatBot Arena 总榜排名再次发生震荡。在 LMSYS 总榜上,Yi-Lightning 的最新排名胜过硅谷头部企业 OpenAI GPT-4o-2024-05-13、Anthropic Claude 3.5 sonnet,在一众国内大模型中拔得头筹,超越 Qwen2.5-72b-Instruct、DeepSeek-V2.5、GLM-4-0520 等。

在众多分榜上,Yi-Lightning 的成绩同样出众。在中文分榜上,Yi-Lightning 超越了 xAI 发布的 Grok-2-08-13、智谱发布的 GLM-4-Plus 等国内外优质模型,与 o1-mini 等模型并列排名世界第二。

在多轮对话分榜上,Yi-Lightning 则是超越了 Google 所发布的 Gemini-1.5-Pro 、Anthropic 发布的 Claude 3.5 Sonnet 等知名旗舰模型,排名第三。

数学能力,代码能力方面,Yi-Lightning 同样处于全球第一梯队。在数学、代码分榜上,Yi-Lightning分别取得第三、第四名。

以专业性与高难度著称的艰难提问、长提问榜单上,Yi-Lightning 的表现依旧出众,均取得世界第四的优异成绩。

LMSYS Chatbot Arena 的用户体验评估不仅证明了 Yi-Lightning 的出色性能,也更为直观地验证了大模型解决真实世界问题的能力。这不仅证明了 Yi-Lightning 优异的模型性能,更重要的是,这也意味着 Yi-Lightning 能够丝滑地由实验室场景过渡到模拟真实用户场景,能够更快、更高质量地实现模型能力落地。

作为模型落地的典型场景之一,翻译场景十分全面地考验了模型语言理解和生成、跨语言能力、上下文感知能力,通过 Yi-Lightning 与Qwen2.5-72b-Instruct、DeepSeek-V2.5、Doubao-pro 的对比,Yi-Lightning 优异的模型性能也得到了最直观的展现:

Yi-Lightning翻译对比视频

追求极速推理,最高生成速度较 Yi-Large 提升近四成

从命名可以看出,与 Yi-Large 相比,Yi-Lightning 在模型性能更进一步的前提下,推理速度方面有着极大提升。这一方面得益于零一万物自身世界一流的 AI Infra 能力,另一方面则是由于,与此前稠密模型架构不同,Yi-Lightning 选择采用 Mixture of Experts(MoE)混合专家模型架构,并在模型训练过程中做了新的尝试。

内部评测数据显示,在 8xH100 算力基础下,以同样的任务规模进行测试,Yi-Lightning 的首包时间(从接收到任务请求到系统开始输出响应结果之间的时间)仅为 Yi-Large 的一半,最高生成速度也提升了近四成,大幅实现了旗舰模型的性能升级。

外部模型中,零一万物选择与 GPT-4o 做对比。仅凭肉眼就可以看出,Yi-Lightning 的生成速度,堪称“极速”。

Yi-Lightning生成速度对比视频

MoE 模型由多个专家网络(Experts)构成。这种模型设计使得它能够根据任务的难度,动态选择激活哪些专家网络。这种动态选择机制旨在平衡推理成本和模型性能,确保模型在处理不同难度任务时既高效又准确。在训练过程中,MoE 模型会激活所有专家网络,以确保模型能够学习到所有专家的知识;而在推理阶段,根据任务的难度,模型只会选择性地激活更匹配的专家网络。

这也使得激活参数的规模和模型总参数的规模成为 MoE 模型的两个关键概念。通常来说,激活参数与模型总参数的比例越大,模型的稀疏度就越高。虽然稀疏度的增加会极大程度上降低训练和推理成本,但是也往往会导致模型性能下降,显著加大训练难度。

因此,如何在保持模型性能接近最优的同时,尽可能减少激活参数的数量以降低训推成本、提升推理速度,是 MoE 模型训练的重点目标。具体到 Yi-Lightning 模型的训练,零一万物的模型团队进行了如下尝试,并取得了正向反馈:

1. 独特的混合注意力机制(Hybrid Attention)

此前关注 MoE 架构的大模型公司,如 Mistral AI ,大多采用了 Sliding Window Attention(滑动窗口注意力机制)。这种机制通过在输入序列上滑动一个固定大小的窗口来限制每个位置的关注范围,从而减少计算量并提高模型的效率和可扩展性。但是同样受限于固定窗口,模型可能无法充分考虑序列中较远位置的信息,导致信息理解不完整。

在 Yi-Lightning 的训练过程中,零一万物采用了混合注意力机制(Hybrid Attention)。这种机制只在模型的部分层次中将传统的全注意力(Full Attention)替换为滑动窗口注意力(Sliding Window Attention),旨在平衡模型在处理长序列数据时的性能和计算资源消耗。通过这种方式,Yi-Lightning 能够在保持模型对长序列数据的高效处理能力的同时,降低计算成本。

此外,零一万物还引入了跨层注意力(Cross-Layer Attention, CLA)的设计。这种设计允许模型在不同的层次之间共享键(Key)和值(Value)头,从而减少了对存储资源的需求。通过应用跨层注意力, Yi-Lightning 能够在不同层次之间更有效地共享信息,进一步提高了模型的推理效率。

结合这两项技术,零一万物成功地将 Yi-Lightning 模型在面对长序列数据时的表现保持在较高水平,同时显著降低了 KV 缓存的大小,实现了 2 倍至 4 倍的减少;某些层次的计算复杂度也由序列长度的平方级降低到线性级,进一步提高了模型的计算效率。这些改进使得 Yi-Lightning 模型本身在处理长序列数据时更加高效。

基于模基共建战略,零一万物在 AI Infra 方面也做出了进一步优化,结合 Yi-Lightning 的自身特性,共同确保了模型即便在资源受限的环境下也能够保持稳定、出色的表现。

2. 动态 Top-P 路由

面对简单的任务,MoE 模型可选择激活较少的专家网络以加快推理速度,同时保持良好的性能;面对更复杂的任务,MoE 模型则可以激活更多的专家网络可以提高模型的准确性。

动态 Top-P 路由就像是 MoE 模型中做出选择的“把关人”。它可以根据任务的难度动态自动选择最合适的专家网络组合,而无需人工干预。与传统的 Top-K 路由机制相比,动态 Top-P 路由能够更灵活地根据任务的难度调整激活的专家网络数量,从而更好地平衡推理成本和模型性能。

在 Yi-Lightning 训练过程中,零一万物选择引入动态 Top-P 路由机制,这使得 Yi-Lightning 能够更加智能地适应各种任务需求,这也是它能够实现“极速推理”的一大原因。

3. 多阶段训练(Multi-stage Training)

在 Yi-Lightning 的训练规划中,零一万物还改进了单阶段训练,使用了多阶段的训练模式。据介绍,在训练前期,零一万物模型团队更加注重数据的多样性,希望 Yi-Lightning 在这个阶段尽可能广泛地吸收不同的知识;而在训练后期则会更加侧重内容更丰富、知识性更强的数据。

通过这种各有侧重的方式, Yi-Lightning 得以在不同阶段吸收不同的知识,既便于模型团队进行数据配比的调试工作,同时在不同阶段采用不同的 batch size 和 LR schedule 来保证训练速度和稳定性。

结合多阶段的训练策略,辅之以自创高质量数据生产管线,零一万物不仅可以保证 Yi-Lightning 的训练效率,还可以让 Yi-Lightning 在具备丰富知识的同时,基于复杂且重要的数据做进一步的强化。此外,在有较多新增数据、或者想要对模型进行专有化时,零一万物也可以基于 Yi-Lightning 进行快速、低成本的重新训练。相较于传统的单阶段训练,这样的训练方法既可以保证模型整体的训练效果,同时也能更高效地利用训练数据。

“模型+AI Infra+应用”三体布局让大模型更快、更便宜、更“懂行”

国内大模型赛道狂奔进入第二年,商业化造血能力已经成为多方关注的焦点。而无论是 ToC 还是 ToB,如何提前预判 TC-PMF 是绕不开的核心命题。模型性能与推理成本,两项关键因素直接影响着大模型落地的成败。

Yi-Lightning 已在 LMSYS 等多项国际权威评测中取得 SOTA 成绩,同时支持极速推理,模型性能已得到验证。而基于 MoE 模型架构与零一万物的 AI Infra 优势,Yi-Lightning 的推理成本也降至行业新低。

基于模型性能显著升级、推理成本大幅下降、同时可实现极速推理的 Yi-Lightning,零一万物可探索的落地场景将会进一步扩展。

10月16日,零一万物也首度对媒体公布了全新 ToB 战略下的首发行业应用产品 AI 2.0 数字人,聚焦零售和电商等场景,将最新版旗舰模型实践到行业解决方案,在弹幕互动、商品信息提取、实时话术生成等环节,AI 2.0 数字人已接入 Yi-Lightning。接入 Yi-Lightning 后,数字人的实时互动效果更好,话术更丝滑,回复也更准确;业务数据方面,在接入 Yi-Lightning 全新加持的数字人直播后,某酒旅企业的 GMV 较此前上升 170%。

Yi-Lightning数字人对比视频

同时, Yi-Lightning 的“极速”不仅体现在模型推理速度,定制模型的交付速度也会得到极大提升。受益于 MoE 模型的自身特性、在多阶段训练方面的技术积累,零一万物能够基于客户的特殊需求,进行高效地针对性训练,快速交付贴合特定服务场景、极速推理、成本极低的私有化定制模型。

“模型+AI 基础设施+应用”缺一不可,以大模型为引擎打造新质生产力

进入2024年以来,中国大模型行业从狂奔进入到了“长跑阶段”。从技术侧和产业侧都引发了行业的进一步思考。

从技术发展上看,在算力受限的情况下,中国基座模型的研发能力处在世界什么身位,如何追赶国外顶尖大模型等问题引发外界关注。甚至一度传出“中国可以不用再研发预训练基座模型”的说法。

从产业落地上看,如何让大模型技术走出实验室赋能千行百业,成为驱动实体经济增长的新质生产力,加速AI落地走入实业助力新一波经济增长,也成为各方关注点。

零一万物此次推出的Yi-Lightning模型一经亮相,就在世界权威的盲测榜单LMSYS中击败了OpenAI今年五月发布的GPT-4o。中国大模型首度超越性能极佳的 GPT-4o 对于我国人工智能发展是个里程碑事件,彰显了中国所孕育的强大技术实力。

零一万物同时推出的面向企业客户的两款解决方案,不仅又快又好,而且能把世界顶尖模型的价格做到白菜价,在实践案例上有效提升了企业用户的营收。

这些都彰显了中国大模型公司“模型+基础设施+应用”“三位一体”全栈式布局的必要性和重要性,这不仅构筑大模型企业自身的技术护城河,确保自身模型核心技术的安全性,也是把创新技术产业化,赋能实体经济的有益的探索。未来,零一万物将继续夯实“三位一体”的布局,为推动中国大模型成为驱动千行百业的新质生产力贡献自己的力量。

零一万物 CEO 李开复博士表示,Yi-Lightning 的出色表现是零一万物“模基共建”战略正确性的又一有力例证,作为兼具性能与性价比的新旗舰模型,Yi-Lightning 也将成为零一万物探索“模应一体”的重要基石。AGI 仍在远方,现阶段更需要让大模型能力落地应用层, 推动整个大模型行业形成健康的生态。在这一阶段,零一万物会坚持“模型+AI Infra+应用”三位一体的全栈式布局,以国际 SOTA 的基座模型为基础,积极在 ToB 企业级解决方案上探索 TC-PMF,以更从容的姿态迎接即将到来的 AI 普惠时代。

欢迎扫码加群参与讨论

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O824QCyKd13_k0eCJewkrrGQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券