首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

DeepSeek 开源大模型,它到底开源了什么?没开源什么?

开篇

DeepSeek 开源大模型,它到底开源了什么?没开源什么?

DeepSeek 的爆火除了自身的技术创新和架构创新硬实力外,选择开源也是一个推动热度至关重要的一个决定。

首先,它开放了模型架构和参数,也就是说开发者可以直接使用这个高性能模型,而不需要从头开始训练。还有他的混合专家(MoE)架构这种创新型技术,提供了一个新的思路。每个人都可以去修改和商业使用。

其次,它还开源了技术报告和配套工具,这就相当于将“秘籍”给你,还告诉你怎么检验自己练没练成。

那它没开源什么?

1. 训练数据,做技术的都知道一个大模型的质量和训练数据息息相关,而且很多数据是有版权的,所以很少会有人将大量的数据进行开源。

2. 训练代码和推理代码,DeepSeek 通过报告披露了一些他们的训练方法,但是这部分闭源情况下,想复现模型还是比较困难的。

最后

总的来说,DeepSeek的开源在模型架构、参数和配套工具方面做得不错,但在训练数据和完整训练框架方面有所保留。

但是作为使用者,它无疑给我们带来了极大的便利,未来的 AI 可能会像水和电一样,接入我们生活的各个场景中。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OpHpnlsuc_EM8Sqg8sbMcflA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券