彩云科技DCFormer模型架构发布，效率是Transformer的两倍！

文章来源：企鹅号 - 雷峰网

自2017年Transformer架构诞生之后，到现在为止其仍然是人工智能领域研究和应用的基础，鲜少有团队能够在最底层架构上进行一些变革和开发且做出较大的成效。一方面是由于Transformer确实好用；另一方面，在最底层上做突破并非易事。

然而，彩云科技是那个反共识者。2024年5月22日，彩云科技发布了全新通用模型结构DCFormer，其相关论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》（https://arxiv.org/abs/2405.08553）将在第41届国际机器学习大会ICML 2024正式发表。

在论文中，彩云科技实验证明了在三千亿级训练数据和70亿级模型参数量下，DCFormer效率是Transformer的两倍。据一位评委透露，今年录用论文的平均分为4.25-6.33，而彩云科技团队的论文获得平均7分的高分。

ICML是国际机器学习领域的顶级会议，能够发表论文的中国初创企业屈指可数。彩云科技证实，其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果，即算力智能转化率提升了1.7~2倍。在众多NLP下游任务和图像识别任务上的测评也验证了DCFormer的有效性（详见论文表格）。

DCFormer对性能算力比的提升幅度超过自2017年Transformer诞生至今被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和（同时应用这两项改进的Transformer架构也叫Transformer++，如Llama）。而且随着模型规模的增大，DCFormer的提升越来越大（左图下的蓝线和绿线），而Transformer++的提升越来越小（左图下的黑线）。可以说，DCFormer让Transformer的能力又跃上一个新台阶。

彩云科技CEO袁行远说："如果底层模型没有突破，人工智能的进步终将停滞不前。人人都说神经网络是个黑盒，我们需要勇气和耐心打开这个黑盒，通过分析模型运转原理，我们才能知道智能的本质规律，从而可以改进模型，提高模型的运行效率。"雷峰网雷峰网雷峰网

未来彩云科技会将全新大模型DCFormer应用于旗下三款杀手级app，并将进一步发展彩云小梦，加速提升AI续写能力。袁行远说，"AI交互是前所未有的交互形式，也因此让我们有机会在AI的帮助下，建立每个人自己的'次元宇宙'，而DCFormer大模型将加快这一进程。我们希望能够通过彩云小梦，帮助更多人实现现实生活中无法实现的梦想。"

发表于: 2024-05-232024-05-23 12:02:16
原文链接：https://page.om.qq.com/page/OXqH5P1ftiD8F38XrA34kXfw0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

彩云科技DCFormer模型架构发布，效率是Transformer的两倍！

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐