国内头部生活方式社区小红书正式开源其首个自研大型语言模型dots.llm1-143B-A14B(简称dots.llm1)。这款基于混合专家架构(MoE)的千亿级参数模型,凭借在中文任务中的卓越表现、突破性的能效比,以及独特的“人文智能”理念,迅速引发AI业界与开源社区的高度关注。
技术突破:高效架构与极致成本平衡
dots.llm1采用稀疏MoE架构,总参数量达1420亿,但推理时仅激活140亿参数,实现计算资源的高效利用。测试数据显示,其训练总成本仅为146万GPU小时,仅为同量级模型Qwen2.5-72B的1/4,每万亿token训练成本低至13万GPU小时,却能在中文语义理解(CLUEWSC 92.6分)、综合评估(C-Eval 92.2分)和数学推理(MATH500 84.8分)等基准测试中媲美甚至超越主流开源模型。
这一突破得益于三大核心技术创新:
动态路由机制:通过细粒度专家网络动态选择,结合无辅助损失的负载平衡策略,确保计算资源精准投入;
超长文本处理:独创的UtK(Unshuffle-then-Knit)策略,支持32K tokens上下文输入,长文本记忆能力显著提升;
工程优化:与NVIDIA合作开发的交错式1F1B流水线调度技术,配合分组GEMM算子优化,实现前向计算提速14%、反向计算提速6.68%。
人文内核:AI与哲学的跨界融合
不同于传统技术导向的大模型,dots.llm1的研发由小红书“人文智能实验室”(Hi Lab)主导,首次将哲学、文学等人文视角深度融入AI训练。项目团队联合复旦大学哲学学院成立“AI人文人才训练营”,通过指令微调(Instruction Tuning)和拒绝采样微调(RFT),使模型输出兼具技术精准度与人性化表达。例如,在伦理思辨任务中,模型能对“电车难题”给出多维度哲学分析;在创意写作场景下,可生成兼具文学性与生活气息的藏头诗或产品文案。
开源生态:全链路透明与社区共创
小红书此次开源策略堪称行业标杆,除模型权重和代码外,还首次公开:
预训练全流程:包括11.2万亿token高质量语料的处理管道(含网页清洗、分类器过滤等三阶段流程);
中间训练检查点:每万亿token训练节点的模型快照,为研究大模型学习动态提供珍贵样本;
完整训练框架:基于内部Cybertron框架的代码实现,支持开发者复现训练流程。
目前,dots.llm1的代码、权重及文档已上线Hugging Face和GitHub,开发者可基于MIT协议自由使用。这一举措被业界视为“国产开源大模型的新范式”,有望推动AI技术从参数竞赛转向生态共建。
行业影响:重构AI落地逻辑
和众汇富研究院指出,dots.llm1的开源标志着国产大模型在三大维度实现突破:
能效比革命:以1/4资源达成同等性能,挑战“暴力Scaling”传统路径;
数据范式升级:摒弃合成数据,验证真实语料在模型可控性上的优势;
场景适配创新:通过中间检查点开放,支持企业定制化微调,降低AI落地门槛。
小红书技术副总裁王晓博表示,未来将进一步探索多模态融合与垂直场景优化,例如结合社区海量UGC数据,开发适配电商推荐、内容创作等场景的专属模型。
领取专属 10元无门槛券
私享最新 技术干货