首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI不敢公开的技术:DeepSeek低成本训练内幕

大家好,我是编程乐趣。

DeepSeek杀疯了!DeepSeek的综合能力与ChatGPT已经不分伯仲了。

这几天我也看了很多资料,来了解DeepSeek如何实现低成本的。

在介绍DeepSeek低成本训练内幕之前,我们先来聊聊改变了哪些行业格局。

DeepSeek的崛起打破了AI大模型烧钱、堆算力的固有印象,大大降低了AI门槛,使得更多的企业和开发者能够用上先进的AI大模型,同时也能训练先进的AI大模型,也打破了美国AI垄断的局面。

总的来说,只要你敢于创新、敢于尝试、在有限的资金和算力下,也是有可能实现先进的AI大模型。

DeepSeek做了如下创新,使得成本大大降低。

1、创新性地提出了 MLA(多头潜在注意力机制)架构和MOE混合专家模式架构,将显存占用大幅降低至过去常用 MHA 架构的 5%-13% 。

2、在模型架构方面也做了很多优化,它通过定制芯片间通信方案,使得数据在运算过程中传输更加高效,减少因通信延迟或数据传输错误导致的额外开销。

3、DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。

以上是DeepSeek的具体做法,但更重要的是DeepSeek创始人的理念。

DeepSeek创始人认为要赶超美国,不能单纯的模仿,更是要有魄力去创新,DeepSeek就是走的就是一条他人从未走过的路,这是非常冒险的事情,但可喜的是DeepSeek成功了,这是其他大厂没去尝试、可能也不敢尝试的路。

另外DeepSeek的目标是做AGI,也就是通用人工智能,不仅仅搞一个大模型而已,现有的ChatGPT模式是非常消耗资源的,要实现AGI的目标,现有模式肯定是走不通的,必须寻找其他路径。

理念和目标不同,自然会驱动思维和技术的创新。

DeepSeek的模式对于我们普通程序员来说,也是非常有启发的。

我们学习编程的时候,前期肯定要优先选择模仿、跟随,更是要深入理解他人的编程理念。

在结合他人的理念基础上,我们要根据自己的目标,提出适合自己目标的编程理念,有了自己独特理念,自然能在技术做出创新。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OJq_w6ahvN_7z6GmAFt-umpw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券