首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Transformers v4.50.3重磅更新!DeepSeek-V3开源MoE模型正式入驻,性能对标GPT-4!

引言

"Hugging FaceTransformers v4.50.3刚刚迎来重磅更新!本次最大亮点是正式集成*DeepSeek-V3(又称DeepSeek R1)——一个总参数6710亿的混合专家(MoE)模型,性能直接对标GPT-4,而训练成本仅为278万H800 GPU小时。开源社区再次迎来'屠榜级'神器!"*

1. Transformers v4.50.3更新速览

核心更新

• 新增对DeepSeek-V3的原生支持,可通过pip install git+https://github.com/huggingface/transformers@v4.50.3-DeepSeek-3一键安装。

• 修复多项底层兼容性问题,稳定性提升。

开发者必看

• 当前版本为社区协作优化版,后续修复将直接推送至该分支。

2. DeepSeek-V3的三大颠覆性突破

性能对标闭源巨头

• 综合评测超越Llama 3、Mixtral,接近GPT-4水平,尤其擅长数学、代码任务。

极致性价比

训练成本仅278万H800小时(GPT-4传闻需6300万小时),推理时仅激活370亿参数/Token

技术革新

Multi-head Latent Attention (MLA):注意力计算效率提升30%。

无辅助损失的MoE负载均衡:简化训练流程,稳定性极佳(官方称全程无崩溃)。

3. 5行代码快速体验DeepSeek-V3

from transformers import AutoModelForCausalLM, AutoTokenizer

model = AutoModelForCausalLM.from_pretrained("deepseek-r1", torch_dtype=torch.bfloat16, device_map="auto")

tokenizer = AutoTokenizer.from_pretrained("deepseek-r1")

outputs = model.generate(**tokenizer("你好,DeepSeek-V3!", return_tensors="pt").to(model.device))

print(tokenizer.decode(outputs[0]))

效果示例

用户输入:"解释量子计算的基本原理"

模型输出:"量子计算利用量子比特的叠加和纠缠特性,相比经典比特能并行处理更多信息..."

4. 分布式部署指南(避坑版)

场景:用2节点×8块H100运行

torchrun --nproc_per_node=8 --nnodes=2 --rdzv-backend c10d --rdzv-endpoint <MASTER_IP>:<PORT> run_deepseek_r1.py

常见报错解决

ncclInternalError: no socket interface found 安装NCCL并检查网络配置:

apt install libnccl2 libnccl-dev

export NCCL_SOCKET_IFNAME=eth0  # 替换为实际网卡名5. 局限性 & 社区共建邀请

DeepSeek团队呼吁开发者参与优化:

注意力计算:当前为"朴素版MLA",需升级原生实现。

专家路由:计划改用get_packed_weights提升效率。

你的贡献=下一代SOTA

结语

"Transformers v4.50.3+DeepSeek-V3的组合,标志着开源模型在性能、成本、易用性上已全面逼近闭源商业产品。无论你是研究者、开发者还是AI创业者,这都是一个不容错过的机会!"

·

欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。

·

  • 发表于:
  • 原文链接https://page.om.qq.com/page/Oy4n2hL-ubJ1Tt3FyfVqEXnQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券