OpenAI不敢公开的技术：DeepSeek低成本训练内幕

文章来源：企鹅号 - 发现编程乐趣

大家好，我是编程乐趣。

DeepSeek杀疯了！DeepSeek的综合能力与ChatGPT已经不分伯仲了。

这几天我也看了很多资料，来了解DeepSeek如何实现低成本的。

在介绍DeepSeek低成本训练内幕之前，我们先来聊聊改变了哪些行业格局。

DeepSeek的崛起打破了AI大模型烧钱、堆算力的固有印象，大大降低了AI门槛，使得更多的企业和开发者能够用上先进的AI大模型，同时也能训练先进的AI大模型，也打破了美国AI垄断的局面。

总的来说，只要你敢于创新、敢于尝试、在有限的资金和算力下，也是有可能实现先进的AI大模型。

DeepSeek做了如下创新，使得成本大大降低。

1、创新性地提出了 MLA(多头潜在注意力机制)架构和MOE混合专家模式架构，将显存占用大幅降低至过去常用 MHA 架构的 5%-13% 。

2、在模型架构方面也做了很多优化，它通过定制芯片间通信方案，使得数据在运算过程中传输更加高效，减少因通信延迟或数据传输错误导致的额外开销。

3、DeepSeek-R1 在后训练阶段大规模使用了强化学习技术，在仅有极少标注数据的情况下，极大提升了模型推理能力。在数学、代码、自然语言推理等任务上，性能比肩 OpenAI o1 正式版。

以上是DeepSeek的具体做法，但更重要的是DeepSeek创始人的理念。

DeepSeek创始人认为要赶超美国，不能单纯的模仿，更是要有魄力去创新，DeepSeek就是走的就是一条他人从未走过的路，这是非常冒险的事情，但可喜的是DeepSeek成功了，这是其他大厂没去尝试、可能也不敢尝试的路。

另外DeepSeek的目标是做AGI，也就是通用人工智能，不仅仅搞一个大模型而已，现有的ChatGPT模式是非常消耗资源的，要实现AGI的目标，现有模式肯定是走不通的，必须寻找其他路径。

理念和目标不同，自然会驱动思维和技术的创新。

DeepSeek的模式对于我们普通程序员来说，也是非常有启发的。

我们学习编程的时候，前期肯定要优先选择模仿、跟随，更是要深入理解他人的编程理念。

在结合他人的理念基础上，我们要根据自己的目标，提出适合自己目标的编程理念，有了自己独特理念，自然能在技术做出创新。

相关快讯