开篇
DeepSeek 开源大模型,它到底开源了什么?没开源什么?
DeepSeek 的爆火除了自身的技术创新和架构创新硬实力外,选择开源也是一个推动热度至关重要的一个决定。
首先,它开放了模型架构和参数,也就是说开发者可以直接使用这个高性能模型,而不需要从头开始训练。还有他的混合专家(MoE)架构这种创新型技术,提供了一个新的思路。每个人都可以去修改和商业使用。
其次,它还开源了技术报告和配套工具,这就相当于将“秘籍”给你,还告诉你怎么检验自己练没练成。
那它没开源什么?
1. 训练数据,做技术的都知道一个大模型的质量和训练数据息息相关,而且很多数据是有版权的,所以很少会有人将大量的数据进行开源。
2. 训练代码和推理代码,DeepSeek 通过报告披露了一些他们的训练方法,但是这部分闭源情况下,想复现模型还是比较困难的。
最后
总的来说,DeepSeek的开源在模型架构、参数和配套工具方面做得不错,但在训练数据和完整训练框架方面有所保留。
但是作为使用者,它无疑给我们带来了极大的便利,未来的 AI 可能会像水和电一样,接入我们生活的各个场景中。
领取专属 10元无门槛券
私享最新 技术干货