首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

小红书首个自研大模型dots.llm1:以“人文温度”重构AI技术范式

国内头部生活方式社区小红书正式开源其首个自研大型语言模型dots.llm1-143B-A14B(简称dots.llm1)。这款基于混合专家架构(MoE)的千亿级参数模型,凭借在中文任务中的卓越表现、突破性的能效比,以及独特的“人文智能”理念,迅速引发AI业界与开源社区的高度关注。

技术突破:高效架构与极致成本平衡

dots.llm1采用稀疏MoE架构,总参数量达1420亿,但推理时仅激活140亿参数,实现计算资源的高效利用。测试数据显示,其训练总成本仅为146万GPU小时,仅为同量级模型Qwen2.5-72B的1/4,每万亿token训练成本低至13万GPU小时,却能在中文语义理解(CLUEWSC 92.6分)、综合评估(C-Eval 92.2分)和数学推理(MATH500 84.8分)等基准测试中媲美甚至超越主流开源模型。

这一突破得益于三大核心技术创新:

动态路由机制:通过细粒度专家网络动态选择,结合无辅助损失的负载平衡策略,确保计算资源精准投入;

超长文本处理:独创的UtK(Unshuffle-then-Knit)策略,支持32K tokens上下文输入,长文本记忆能力显著提升;

工程优化:与NVIDIA合作开发的交错式1F1B流水线调度技术,配合分组GEMM算子优化,实现前向计算提速14%、反向计算提速6.68%。

人文内核:AI与哲学的跨界融合

不同于传统技术导向的大模型,dots.llm1的研发由小红书“人文智能实验室”(Hi Lab)主导,首次将哲学、文学等人文视角深度融入AI训练。项目团队联合复旦大学哲学学院成立“AI人文人才训练营”,通过指令微调(Instruction Tuning)和拒绝采样微调(RFT),使模型输出兼具技术精准度与人性化表达。例如,在伦理思辨任务中,模型能对“电车难题”给出多维度哲学分析;在创意写作场景下,可生成兼具文学性与生活气息的藏头诗或产品文案。

开源生态:全链路透明与社区共创

小红书此次开源策略堪称行业标杆,除模型权重和代码外,还首次公开:

预训练全流程:包括11.2万亿token高质量语料的处理管道(含网页清洗、分类器过滤等三阶段流程);

中间训练检查点:每万亿token训练节点的模型快照,为研究大模型学习动态提供珍贵样本;

完整训练框架:基于内部Cybertron框架的代码实现,支持开发者复现训练流程。

目前,dots.llm1的代码、权重及文档已上线Hugging Face和GitHub,开发者可基于MIT协议自由使用。这一举措被业界视为“国产开源大模型的新范式”,有望推动AI技术从参数竞赛转向生态共建。

行业影响:重构AI落地逻辑

和众汇富研究院指出,dots.llm1的开源标志着国产大模型在三大维度实现突破:

能效比革命:以1/4资源达成同等性能,挑战“暴力Scaling”传统路径;

数据范式升级:摒弃合成数据,验证真实语料在模型可控性上的优势;

场景适配创新:通过中间检查点开放,支持企业定制化微调,降低AI落地门槛。

小红书技术副总裁王晓博表示,未来将进一步探索多模态融合与垂直场景优化,例如结合社区海量UGC数据,开发适配电商推荐、内容创作等场景的专属模型。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OTYOPfjfK3i_s4rzs-F1g1_g0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券