Deepseek为什么可以用如此低的成本实现堪比GPT的训练效果?
大致有三个关键点。
1.国外先进智能模型的复用
涉及到一个人工智能领域的专用技术名词“知识蒸馏”,它是深度学习领域中的一种模型压缩与优化技术。
相对技术化的描述是指:将一个庞大的复杂模型(教师模型)的知识迁移到一系列简单模型(学生模型)中,使学生模型在保持较小体积和较低计算成本的同时,尽可能地接近教师模型的性能,降低对计算资源的需求,便于在移动设备等资源受限的环境中部署。
有点像工程学里的逆向推演,通过数学算法的优化,对于同样的输入,尽可能保证输出的拟合一致性。
这里有两个可能会引发争议的焦点:
(1)在信息交互过程中,为了保证效果一致性,势必涉及对原始教师模型的调用和分析,虽然你利用的是别人的开源技术,同时在此基础上也做出了本地化创新,别人无法在知识产权上认定抄袭。但信息提纯过程中的调用及调优,是个相对敏感的地带,目前并没有公论。
(2)学生模型脱胎于教师模型,相当于继承了教师模型的原始基因,这意味着两点:一是可能会继承教师模型的隐藏埋点,遇到特定场景可能被触发;二是学生模型很难在底层架构上做系统性优化,可以追随,可以学习,某些特定场合甚至会有不俗表现,但很难超越。
总体来说,属于商业范畴的低成本应用创新。
2.模型训练架构的优化
可能借鉴了互联网应用的性能优化理论,比如引入分布式训练提升运算效率,根据概率划分信息处理权重,通过共享和动态选择降低冗余计算等等。
3.数据的提纯和创新
Deepseek在中文处理方面有不俗的表现,一方面得益于大量行业数据的鼎力支持,另一方面通过严格的清洗、去重和评分机制,筛选高信息密度的训练数据,减少无效训练样本的噪声干扰。这两方面都相对优于GPT,国外缺乏高质量的中文语料数据,同时无法取得更细分领域的行业数据。
----
美好的一天开始了,早安~
愿朋友们健康长随
连续跳绳960天达成
2000次,DONE~
领取专属 10元无门槛券
私享最新 技术干货