3月21日深夜,腾讯通过直播发布了混元T1正式版。
这是首个基于混合Mamba架构的超大型推理模型,抛弃了Transformer架构。
简单来说,混合Mamba架构通过降低计算复杂度、缓存占用,同时发挥其在处理长序列和捕捉复杂上下文方面的优势,成功应对了大规模强化学习训练的挑战,显著提升了系统的整体效率和吞吐量,实现了训练和推理成本双下降。
模型思考和生成答案的速度更快了,官方称T1性能达到超一流水平,仅次于OpenAI o1。
体验地址:https://llm.hunyuan.tencent.com/#/chat/hy-t1
对垒DeepSeek:速度快、情商高、幻觉少
腾讯T1选择深夜直播,目的很明显:冲向国际化。
因此,在这场直播的前半段,也是相当频繁地以目前海内外爆火的DeepSeek为标杆。
首先,在回答质量基本打平的情况下,T1的速度达到了DeepSeek的两倍。
做条件推理题目时,T1早早就“交卷”了。
除了生成速度之外,T1在处理复杂指令上,也进行了改进。在demo的演示中,小哥出了上联“深深浅浅溪流水”,T1对了“洋洋洒洒江河满”。(虽然也不是最工整的对子,但已经相当出色)。
其次,T1在回答问题的文风上做了优化,使其回答更具通用性。
团队成员介绍说,我们观察到某些推理模型像理工男,喜欢用高深的硬科技词汇……混元T1则对此进行调整,虽然同样擅长理工科的长推理,但在文科方面表现得比较中性,更适合通用任务和常识性任务。
最后,T1还针对目前大模型饱受诟病的幻觉问题做了优化,摘要幻觉率显著低于行业水平,成为一大亮点。
“推理模型虽然看上去思考了很多,但就会产生更多的幻觉,有时候是无中生有,有时是张冠李戴。”混元T1针对这方面做了重点优化。
小哥们表示,用T1来解读研报非常香,简直是打工人的福音。
技术天团解密:T1的超高性能从何而来
既然直播请到了技术团队,那肯定得解析下T1为何有如此多的独到之处。
团队成员将其概述为以下三点:
1. 强大的通用模型基座
T1基于混元Turbo S通用模型基座,通过大规模高质量数据训练,在预训练阶段打下坚实基础。
2. 创新的后训练数据策略
在后训练阶段,T1采用独特的指令激发策略,注重高质量Prompt和Response数据的获取。通过复杂指令的多样性和难度分级系统,确保指令的丰富性和层次性。同时,通过约束模型为每条Prompt生成Checklist,筛选出满足多样化约束的指令,防止指令分布不均匀。
3. 严格的数据质量把控
T1在数据质量方面采取了严格措施。首先,通过数据质量检测Pipeline(指的是按照特定顺序执行的质量检测步骤或操作流程),结合传统算法和大模型检测方法,确保训练数据的基础质量,避免低级错误。其次,针对长思维链数据中的幻觉和逻辑错误问题,训练了一个Critic(批判)模型进行严格把控。该模型能够识别和检测数据中的噪音问题,确保训练数据的准确性和可靠性,从而提升模型在复杂任务中的表现。
不仅如此,团队还发现了一个很有意思的现象,即从理科训练获得的推理能力是可以通过能力迁移到文科和其他领域的。
因此,团队刻意让模型去进行能力迁移,通过将早期版本融入奖励系统指导正式版本迭代,提升通用能力。
极致工程化,应对超大型推理模型的三大挑战
不仅是技术创新,T1团队在工程化方面也做了很多工作。
团队成员介绍说,超大型推理模型目前面临着“三座大山”:计算资源的效率挑战、高带宽带来的通信挑战、集群规模扩大之后,在规模扩展和稳定性方面的挑战。
针对这些让人头疼的问题,T1团队做了什么:
1. 提升计算资源利用率,优化通信效率
通过优化,T1在万卡训练任务中,计算资源利用率处于行业领先水平。同时,突破了分布式训练和推理的通信瓶颈,有效提升了端到端存储,使得训练效率提升了2.6倍,推理成本降低了约70%。
2. 保障服务稳定性
在大规模GPU集群中,腾讯实现了万卡线性扩展,加速比达到99%,服务稳定性达到99.5%,故障率仅为行业平均水平的三分之一。
3. 自研框架与组件
为高性能保驾护航的安全平台主要包括两个组件:
- 训练组件(安全PDM):针对低端算力和显存限制,腾讯自主研发了大规模训练框架,通过统一内存显存管理和多维并行优化,显著提升了训练的可扩展性。
- 推理组件(安全HCF):支持万亿级别的MOE大模型部署,具备多种并发策略、投机采样、量化和稀疏化压缩策略。此外,还支持PD分离部署策略,以充分利用高低端显卡组合的性能。
4. 多模态场景的应用
Angel平台已经在多个大模型场景中广泛应用,包括多模态、语音、3D、视频等,展现了其高性能和高稳定性的优势。
写在最后
在写这篇文章的时候,小编也忍不住体验了一把T1,的确速度拉满。
在测试的案例中,T1生成速度快的同时,思考的维度全面、信息给的更加丰富。
或许,T1的这波投石问路,会让接下来有更多非Transformer的模型涌现出来。
领取专属 10元无门槛券
私享最新 技术干货