不用GPU也能训练大模型？这家AI初创企业首推非Attention机制大模型

文章来源：企鹅号 - 财联社

《科创板日报》1月30日讯（记者张洋洋） 在Transformer占大模型架构主流的背景下，国内一家AI初创企业正在试图撼动前者的主导地位。

近期，岩山科技旗下的AI初创公司岩芯数智发布了国内首个非Attention机制的大模型Yan，这是业内少有的非Transformer架构大模型。

Transformer是一种基于注意力机制的神经网络架构，也是当今自然语言处理领域的主流模型架构，它可以处理序列数据，提高翻译、识别等任务的效果。

目前，主流的大模型系列有三个：OpenAI的GPT系列、Meta的LLaMa系列、Google的PaLM系列。国内的大模型基本都延续了这三个系列，或是它们的一个子版本演变而来。

而上述三个系列都是基于Transformer架构衍生而来，成为大模型的支柱。

岩芯数智CEO刘凡平在接受《科创板日报》采访时表示，Yan是一个通用大语言模型，采用的是公司自研的“Yan架构”，拥有相较于同等参数Transformer的7倍训练效率、5倍推理吞吐、3倍记忆能力，同时支持CPU无损运行、低幻觉表达、100%支持私有化应用。

之所以要另辟蹊径，刘凡平称，主要是标准的Transformer架构模型，算力消耗，训练成本太高，交付成本也高，成本难以覆盖客户的付费，不少中小型企业望而却步，“这种情况下，如果一直做下去，我们做一单亏一单”。

面临算力耗费高、数据需求大等问题，因此岩芯数智从技术上放弃了Transformer架构和Attention机制。

对于Yan模型的落地周期和成本，刘凡平告诉记者，一个是缩短和客户的沟通时间、减少客户的理解成本，一般需求阶段够会在1-2个月，通过Yan架构，1个月以内已经可以出为客户私有化模型；另一方面，项目成本会降低，例如300万合同的项目可以降低到260万左右，但是利润不一定是下降了。

就业内共识而言，大模型竞赛已经从“卷参数”的时代过渡到了“卷应用”的阶段，行业对于通用大模型的需求亟待解决，故而许多大模型会通过剪枝、压缩等主流技术手段来实现在设备上的运行。

岩芯数智董事长陈代千在接受《科创板日报》采访时表示，之后会做到训推一体，希望Yan能够在CPU甚至在手机芯片上都能做训练，做推理，能在端侧设备上做一些私有化的部署。

刘凡平还透露，岩芯数智第四代大模型Y2.0已经在路上，这是一个全模态的大模型架构，目标是要全面打通感知、认知、决策与行动，构建通用人工智能的智能循环，期望未来能做一个通用人工智能操作系统。

（科创板日报记者张洋洋）

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货