首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

快放假了也不放过打工仔!deepseek开源了新一块大模型DeepSeek-Prover-V2-671B

基本信息

• 模型名称:DeepSeek-Prover-V2-671B

• 参数规模:6710亿参数(激活参数量未公开)

• 架构:基于DeepSeek-V3基座的MoE架构,含2048个MoE单元(1共享专家+256路由专家)

• 上下文长度:支持163,840 tokens

• 开源地址:Hugging Face平台(搜索模型仓库)

核心技术亮点

数学推理优化

• 结合RL+MCTS,引入Lean/Coq等工具反馈

• 双层架构:领域专家+通用基座(V3共享)

高效计算设计

• FP8量化 + 稀疏注意力(MLA)

• 存储需求减少93.3%,精度无损

多任务扩展

• 支持代码生成、逻辑验证

• 可与DeepSeek-R2通用模型协同

应用场景

• 学术:数学定理自动化证明工具

• 工业:芯片设计/密码学形式化验证

• 教育:智能解题助手(可视化证明过程)

与其他模型关联

• V3基座:共享架构,但针对数学推理专项优化

• R系列模型:推理模块可被R2调用(垂直领域+通用协同)

开源生态意义

• 低成本训练

• 高性能技术普惠,推动学术/工业适配

• 开发者可快速构建定制化数学推理工具

开源路径:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OkmtBzu6Zc_xYFfaBqLsVUMw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券