小红书首个自研大模型dots.llm1：以“人文温度”重构AI技术范式

文章来源：企鹅号 - 时空元宇宙数据服务

国内头部生活方式社区小红书正式开源其首个自研大型语言模型dots.llm1-143B-A14B（简称dots.llm1）。这款基于混合专家架构（MoE）的千亿级参数模型，凭借在中文任务中的卓越表现、突破性的能效比，以及独特的“人文智能”理念，迅速引发AI业界与开源社区的高度关注。

技术突破：高效架构与极致成本平衡

dots.llm1采用稀疏MoE架构，总参数量达1420亿，但推理时仅激活140亿参数，实现计算资源的高效利用。测试数据显示，其训练总成本仅为146万GPU小时，仅为同量级模型Qwen2.5-72B的1/4，每万亿token训练成本低至13万GPU小时，却能在中文语义理解（CLUEWSC 92.6分）、综合评估（C-Eval 92.2分）和数学推理（MATH500 84.8分）等基准测试中媲美甚至超越主流开源模型。

这一突破得益于三大核心技术创新：

动态路由机制：通过细粒度专家网络动态选择，结合无辅助损失的负载平衡策略，确保计算资源精准投入；

超长文本处理：独创的UtK（Unshuffle-then-Knit）策略，支持32K tokens上下文输入，长文本记忆能力显著提升；

工程优化：与NVIDIA合作开发的交错式1F1B流水线调度技术，配合分组GEMM算子优化，实现前向计算提速14%、反向计算提速6.68%。

人文内核：AI与哲学的跨界融合

不同于传统技术导向的大模型，dots.llm1的研发由小红书“人文智能实验室”（Hi Lab）主导，首次将哲学、文学等人文视角深度融入AI训练。项目团队联合复旦大学哲学学院成立“AI人文人才训练营”，通过指令微调（Instruction Tuning）和拒绝采样微调（RFT），使模型输出兼具技术精准度与人性化表达。例如，在伦理思辨任务中，模型能对“电车难题”给出多维度哲学分析；在创意写作场景下，可生成兼具文学性与生活气息的藏头诗或产品文案。

开源生态：全链路透明与社区共创

小红书此次开源策略堪称行业标杆，除模型权重和代码外，还首次公开：

预训练全流程：包括11.2万亿token高质量语料的处理管道（含网页清洗、分类器过滤等三阶段流程）；

中间训练检查点：每万亿token训练节点的模型快照，为研究大模型学习动态提供珍贵样本；

完整训练框架：基于内部Cybertron框架的代码实现，支持开发者复现训练流程。

目前，dots.llm1的代码、权重及文档已上线Hugging Face和GitHub，开发者可基于MIT协议自由使用。这一举措被业界视为“国产开源大模型的新范式”，有望推动AI技术从参数竞赛转向生态共建。

行业影响：重构AI落地逻辑

和众汇富研究院指出，dots.llm1的开源标志着国产大模型在三大维度实现突破：

能效比革命：以1/4资源达成同等性能，挑战“暴力Scaling”传统路径；

数据范式升级：摒弃合成数据，验证真实语料在模型可控性上的优势；

场景适配创新：通过中间检查点开放，支持企业定制化微调，降低AI落地门槛。

小红书技术副总裁王晓博表示，未来将进一步探索多模态融合与垂直场景优化，例如结合社区海量UGC数据，开发适配电商推荐、内容创作等场景的专属模型。

发表于: 15天前2025-06-12 17:30:48
原文链接：https://page.om.qq.com/page/OTYOPfjfK3i_s4rzs-F1g1_g0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

小红书首个自研大模型dots.llm1：以“人文温度”重构AI技术范式

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐