大家好,我是编程乐趣。
DeepSeek杀疯了!DeepSeek的综合能力与ChatGPT已经不分伯仲了。
这几天我也看了很多资料,来了解DeepSeek如何实现低成本的。
在介绍DeepSeek低成本训练内幕之前,我们先来聊聊改变了哪些行业格局。
DeepSeek的崛起打破了AI大模型烧钱、堆算力的固有印象,大大降低了AI门槛,使得更多的企业和开发者能够用上先进的AI大模型,同时也能训练先进的AI大模型,也打破了美国AI垄断的局面。
总的来说,只要你敢于创新、敢于尝试、在有限的资金和算力下,也是有可能实现先进的AI大模型。
DeepSeek做了如下创新,使得成本大大降低。
1、创新性地提出了 MLA(多头潜在注意力机制)架构和MOE混合专家模式架构,将显存占用大幅降低至过去常用 MHA 架构的 5%-13% 。
2、在模型架构方面也做了很多优化,它通过定制芯片间通信方案,使得数据在运算过程中传输更加高效,减少因通信延迟或数据传输错误导致的额外开销。
3、DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
以上是DeepSeek的具体做法,但更重要的是DeepSeek创始人的理念。
DeepSeek创始人认为要赶超美国,不能单纯的模仿,更是要有魄力去创新,DeepSeek就是走的就是一条他人从未走过的路,这是非常冒险的事情,但可喜的是DeepSeek成功了,这是其他大厂没去尝试、可能也不敢尝试的路。
另外DeepSeek的目标是做AGI,也就是通用人工智能,不仅仅搞一个大模型而已,现有的ChatGPT模式是非常消耗资源的,要实现AGI的目标,现有模式肯定是走不通的,必须寻找其他路径。
理念和目标不同,自然会驱动思维和技术的创新。
DeepSeek的模式对于我们普通程序员来说,也是非常有启发的。
我们学习编程的时候,前期肯定要优先选择模仿、跟随,更是要深入理解他人的编程理念。
在结合他人的理念基础上,我们要根据自己的目标,提出适合自己目标的编程理念,有了自己独特理念,自然能在技术做出创新。
领取专属 10元无门槛券
私享最新 技术干货