首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

应对Transformer高成本难题 国内首个非Attention机制大模型问世

本报记者 李立 上海报道

百模大战的竞争从“卷应用”到“卷参数”,如今终于卷到了基础架构。

日前,上海岩芯数智人工智能科技有限公司发布国内首个非Attention机制的通用自然语言大模型——Yan模型。

据岩芯数智方面介绍,Yan模型用全新自研的“Yan架构”代替Transformer架构,用百亿级参数达成千亿级参数大模型的性能效果——记忆能力提升3倍、速度提升7倍的同时,实现推理吞吐量的5倍提升。

为什么Transformer已经占据人工智能领域半壁江山的背景下,岩芯数智还要另辟蹊径,自研基础架构,岩芯数智CEO刘凡平接受《中国经营报》等媒体记者采访时回应称:“Transformer架构的训练成本、交付成本都过高,成本难以覆盖客户的付费。需要降低边际成本,是岩芯数智最终走向独立自研的根本原因。”

同等规模成本降低50%

在业界看来,Transformer是当下爆火的GPT、LLAMA、PaLM等大模型普遍采用的基础架构,它的崛起无疑是深度学习历史长河中重要的里程碑。凭借着其强大的自然语言理解能力,Transformer在问世的短短几年内便取代了传统的RNN网络结构,成为自然语言处理领域的主流模型架构。

不过刘凡平认为,Transformer并非大模型的“唯一解”。他指出,以大规模著称的Transformer,在实际应用中的高算力需求和高成本,让不少中小型企业望而却步;其内部架构的复杂性,让决策过程难以解释;长序列处理困难和无法控制的幻觉问题也限制了大模型在某些关键领域和特殊场景的广泛应用。随着云计算和边缘计算的普及,行业对于高效能、低能耗AI大模型的需求正不断增长。

不过挑战Transformer,岩芯数智也并非第一人。

刘凡平注意到,在全球范围内,一直以来都有不少优秀的研究者试图从根本上摆脱对Transformer架构的过度依赖,寻求更优的办法替代Transformer。就连Transformer的论文作者之一Llion Jones也在探索“Transformer之后的可能”,试图用一种基于进化原理的自然启发智能方法,从不同角度创造对AI框架的再定义。

“从早期的基于Transformer架构,到改进Transformer架构,再到放弃Transformer架构,是一个漫长的过程。”刘凡平表示,岩芯数智也在对Transformer模型不断地调研和改进过程中,意识到了重新设计大模型的必要性。

一方面,在Attention机制下,现有架构的调整几乎已经达到瓶颈;另一方面,岩芯数智更期望降低企业对大模型的使用门槛,让大模型在更少的数据、更低的算力下具备更强的性能,以应用于更广泛的业务。

“Transformer架构的主要问题在于成本难以覆盖客户的付费。这种情况下,如果我们一直做下去,做一单亏一单。”刘凡平透露,在很长一段时间,一边改进Transformer架构,一边尝试新的模型架构,最终发现还是Yan架构更有优势。

据岩芯数智方面透露,基于Yan架构,仅需投入同等规模Transformer架构成本的50%甚至更低,就可以拥有百万参数级的大模型。

CPU上可跑大模型

岩芯数智研究团队展示了Yan模型和同等参数规模Transformer模型的实测对比。通过一台笔记本电脑,本地内存使用维持在13G之内,实现模型运行。演示的内容涉及机器翻译、古诗续写、自由对话和医学问答四个方面。

以古诗续写为例,对Yan与Transformer的记忆能力进行对比。训练集上Yan的准确率达到Transformer的3倍,记忆能力更强。在自由对话方面,Yan1.0以“春天百花齐放”为命题,现场演示创作了一首诗;当被问到“流行性感冒如何缓解”“脂肪肝需要如何治疗”等问题时,Yan1.0都给出了较为综合、实用的建议。

“如果说基于Transformer架构的大模型是‘耗油且高昂’的燃油车,那么基于Yan架构的大模型,更像是相对经济、节能的新能源汽车。”岩芯数智方面介绍,Yan架构去除了Transformer中高成本的注意力机制,代之以计算量更小、难度更低的线性计算,提高了建模效率和训练速度,效率翻倍的同时实现了成本的骤降。

据岩芯数智方面介绍,在同等资源条件下,Yan架构的模型训练效率和推理吞吐量分别是Transformer架构的7倍及5倍,并使记忆能力得到3倍提升。Yan架构的设计,使得Yan模型在推理时的空间复杂度为常量,因此针对Transformer面临的长序列难题,Yan模型同样表现突出。

值得注意的是,岩芯数智研究团队还展示了Yan模型在个人电脑端的运行推理,表明了Yan模型不经裁剪和压缩,可在主流消费级CPU等端侧设备上无损运行,达到其他模型在GPU上的运行效果。下阶段有望在手机端等更加便携的设备或终端中进行无损部署。

对于国内首个非Attention机制大模型问世,中国信通院上海工创中心总工程师李韩军认为:“人工智能发展至今,大模型的架构升级始终在不断进化,在技术与应用的双重驱动下,生态边界也在扩展。每一次技术上的突破,都会带来智能生态的发展。从当前着眼通用性,到未来的个性化发展,期待行业生发更多新的生产力工具,引发新一轮技术革命。”

不过在业内人士看来,Yan模型在实际应用中的表现还需要经过市场检验。据刘凡平透露,此前已有客户是一些大型企业,Yan之后,会延伸到中小企业中去,在更低成本下使用AI服务。

(编辑:吴清 校对:颜京宁)

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OKVveKOyeewTg0Gp_0a1KbwQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券