DeepSeek:一场技术界的春晚“大戏”

小草666

发布于 2025-02-04 14:42:12

7520

文章被收录于专栏：万能的小草万能的小草

一、引言

2025年的春节，被DeepSeek搅得热热闹闹的。就像过年的时候，大家都在关注一件新鲜事儿，这DeepSeek，就像是突然冒出来的一个超级明星，吸引了所有人的目光。

二、DeepSeek的两个关键问题

（一）DeepSeek技术到底牛不牛？

这可是个很重要的问题。不过呢，我对技术和技术测试不太懂，所以没办法直接回答。我看了些技术文章，也是模模糊糊的，可能是DeepSeek公布的信息还不够多吧。一个美国的小朋友输入同样的问题，DeepSeek给出的结果就很让我满意了。这么一来，我还是不知道DeepSeek到底水平怎么样。那我就用常识来理解这个事儿吧。

现在公布的信息里，DeepSeek最厉害的地方就是性价比超高。DeepSeek - V3的基准测试性能接近GPT -4，但是它的预训练成本才大约557.6万美元，而GPT - 4的训练成本高达7800万美元甚至1亿美元呢，这成本差距至少有10倍。DeepSeek不需要用很多英伟达昂贵的高性能芯片，就能达到接近GPT - 4的水平，所以被叫做“大模型界的拼多多”。这是因为DeepSeek改进了算法。不过，有人怀疑DeepSeek是不是在撒谎。他们想，难道Open AI和美国的团队就不会改进算法吗？其实啊，性价比高是很典型的中国故事，从制造业到技术产业都是这样的情况。还有人怀疑DeepSeek是“套壳”，觉得它是基于OpenAI的GPT企业版API做了些二次封装和微调。美国官方还对DeepSeek是不是“偷窃”展开调查呢。这事儿估计很难有结果，就算有结果，也会是来回扯皮。按照常识来说，美国团队在原创技术方面（0 - 1）那是世界第一，中国团队在技术应用方面（1 - 1000），特别是性价比上是世界第一。你看，美国研发出大模型后，中国团队很快就能跟上。就像现在硅谷的AI公司，哪家没有华人工程师啊？没华人工程师，那些工作谁来干呢？但是，DeepSeek团队是怎么做到的呢？这还是个谜。不过，DeepSeekR1发布文本的第二行提到一个技术，叫蒸馏技术，很多人都忽略了这个技术。这个概念是Geoffrey Hinton等在2015年的论文《Distilling the Knowledge in a Neural Network》里提出来的。这是什么意思呢？就好比上学的时候，班里的学霸只学了10年数学，考试的时候却比学了近60年数学的退休返聘的数学老师考得还好（同样是150分，但速度更快）。数学老师满身武艺，怎么考不过学生呢？就是因为学生用了蒸馏技术，能快速从知识丰富的老师那里学到满足考试的数学知识、思维和技能，再加上年轻有活力，在小范围（考试）的比试中就表现得更出色了。这就像经济学里的“干中学”。但是，蒸馏技术也有缺点。刚开始可以蒸馏出一个小模型，成本低，性能好，可是要继续发展成真正的大模型，就得投入很高的研发和训练成本了。这就是DeepSeek后面要面临的难题，就像一个考上大学的学霸，要想真正学好数学，还是得花大量的时间。所以啊，去掉那些神秘的光环后，这个故事就是：美国AI在原创技术上还是最厉害的，中国在低成本计算应用方面迅速跟上，现在看起来像是在直接竞争，不过还是得再看看后面的发展。

（二）是不是媒体炒作？

这肯定是炒作啊，但也不能完全否定它的意义。这个春节大戏太完美了，完美得让人觉得有点不真实。刚从海里开完会的中国学霸单挑硅谷精英，还带着量化私募四大天王之一的幻方研发AI，在蛇年春节和美国争夺技术主导权，以低成本高性能击溃英伟达股价，震撼美国，突破半导体技术“卡脖子”的情况。这个故事里有太多宏大叙事的元素了，我们用常识就能判断出媒体在其中起了很大的作用。了解中国金融的人都知道，金融是靠资源吃饭的，任何一家顶级量化私募都不是一个学霸就能搞定的。了解中国媒体的人也知道，媒体是个特殊行业，一类信息集中密集发布，不只是平台算法的作用，背后肯定有人在操作。

不过，在中国，大多数人还是很乐意看到这样的故事的。中国官方肯定希望有这样的团队和技术出现，还希望把它提升到宣传层面。搞技术的人喜欢看新东西，投资人想看到前景，还有些投资人能趁机做空英伟达。官方媒体有宣传内容可写，有广告费收入，自媒体人也有话题有流量。我也希望看到这种事发生。不过我更希望看到的是真实的故事，而不是被宣传出来的故事，不希望它变成像春晚一样华而不实的东西。我更希望看到AI应用落地，比如在量化交易上。有实力才会被炒作，你看智本社就没有被媒体炒作。而且，有实力才能经得住炒作。这后面一点更重要。在顶级技术竞争里，容不得半点虚假。要是在美国资本市场，任何虚假的东西很快就会被做空者发现，价格很快就会惩罚弄虚作假的行为。所以我的态度是，中国有一些很优秀的技术团队，如果做出不错的应用技术，那就让市场去评价，让价格去检验，让用户去体验，不要被那些宏大叙事给困住，要努力创造消费福利。

三、DeepSeek对美股的影响

如果这只是中国单方面的炒作，那美国人为什么要配合呢？你看，特朗普都被震惊了，美国政府都准备调查了，英伟达也不得不出来发声明，黄仁勋、马斯克、Open AI和微软这些硅谷大佬都出来说话了。更重要的是，美股也有反应。2025年1月27日（周一），英伟达股价收盘暴跌16.86%，创下了自2020年3月以来的最大跌幅，市值一天就蒸发了近6000亿美元，这可是美股历史上单日市值蒸发最大的案例。除了英伟达，博通跌17.40%，AMD下滑6.35%，微软下跌2.14%。受半导体股的冲击，当天纳指大跌3.07%。我们常说，价格不会骗人，特别是美国资本市场的价格。那么，这是不是就能说明DeepSeek一举击溃了英伟达股价，挑战了整个硅谷，刺破了美股AI泡沫，让美国各界和投资人都恐慌了呢？有些投资美股的社友着急地问我：DeepSeek是不是改变了美股走势？我有以下四个观点：

（一）DeepSeek在媒体上的表现是英伟达等股价大跌的直接原因

逻辑是这样的：DeepSeek的训练成本大幅下降，对英伟达高性能芯片的依赖度大大降低，所以英伟达等半导体公司的短期营收被看空；这里面隐含的问题是，美国科技公司在大模型方面的资本开支过高。

（二）DeepSeek只是诱因，主要问题在英伟达和生成式AI自身

从大模型爆发以来，生成式AI就有一个让投资者担心的问题：到现在为止，大模型还没有出现一个杀手级的应用。现在，微软、谷歌等科技公司大规模采购英伟达芯片，推动了英伟达的业绩和股价上涨。实际上，这是投资者在不断给AI输血。但是，如果终端市场一直没有出现杀手级应用，不能大幅提高生产率，不能产生经济效益，那么大型科技公司最终会放弃对算力的疯狂储备，英伟达的“铲子”总有一天会卖不动。这个担忧就像悬在英伟达头上的达摩克利斯之剑，一旦英伟达股价涨得太猛，投资者就会觉得太贵了，泡沫太大了，稍微有点风吹草动就会大幅回调，近半年都是这样。而且，这次DeepSeek宣称的超高性价比，正好击中了英伟达的“软肋”。这就好比在野球场上，一个光脚大叔碾压了一个装备齐全、身穿24号、跳投美如画的篮球小子。不过，英伟达的技术实力是不容置疑的。客观地说，DeepSeek不是英伟达的竞争对手，而是英伟达的客户。如果DeepSeek真能像它宣称的那样把成本降得这么低，那实际上是扩展了市场，促进了英伟达的业务，只是现在英伟达遇到了杰文斯悖论（Jevons paradox）。微软首席执行官纳德拉就在社交媒体X上引用了杰文斯悖论（Jevonsparadox）来解释。1865年，英国经济学家杰文斯在《煤炭问题》一文中提出，随着蒸汽机效率的提升，煤炭消耗量不降反增。如果DeepSeek把成本压低，短期内市场对低性能（类似于煤炭）半导体的需求增加，对英伟达高性能芯片的采购会下降。

（三）成本下降是趋势，对相关产业长期利好

DeepSeek等高性价比应用的出现，会扩展到整个内容式AI市场，从长期来看，对英伟达、半导体、人工智能产业以及美股AI板块都是利好的。为什么内容式AI在大模型诞生三年来都没有出现杀手级应用呢？最重要的原因就是成本过高，尤其是算力成本。ChatGPT是个革命性的产品，但为什么不是杀手级应用呢？我有个朋友分析得很有道理，他说，从应用的角度看，ChatGPT是个过时的产品，是互联网1.0时代的搜索产品。这个时代，用户获取信息的方式完全被算法控制，已经形成了算法推送、被动接收的习惯，用户不再是互联网1.0时代的精英用户，他们提不出几个好问题，甚至懒得提问。我的理解是，如果要出现杀手级应用，那一定是在垂直领域。ChatGPT是通用人工智能，就像一个智力超群的数学天才，他的智力要产生经济价值，必须落到具体的领域，比如AI生文、绘图、制作视频、制作数字人、创作音乐、教授英文、实验分析、财务核算、市场预测、量化交易等等。垂直领域为什么没有产生杀手级应用呢？成本是个大问题。目前，ChatGPT多数版本都未开源，垂直领域的公司没有能力自己开发大模型。大多数垂直行业的公司一是没有顶尖的技术力量，二是无法承受技术失败的风险。而初创公司往往又没有行业数据和行业专业能力。但是，幻方量化是个特殊的公司。这家量化私募规模很大、资金雄厚，背后肯定有强大的支持者。公司的创始人梁文锋是技术出身，还有一个怀揣技术理想的精英团队。2021年，幻方管理基金规模一度超过千亿元。2022年，幻方量化大力进军AI，平均每天用近2000张GPU卡在做科研，而不是量化交易。第二年，他们把DeepSeek独立出来运作。奇怪的是，DeepSeek拥有万卡集群算力，是大厂之外唯一拥有万张A100芯片的公司。在中国，只有腾讯、阿里等极少数公司有能力有动力囤积这么大规模的芯片和算力。所以，这不是一个简单的创业故事，可能是另一个华为，背后市场之外的力量很关键。不管是DeepSeek也好，还是通用AI也好，只要能把算力成本降下来，并且对全世界开源，很多垂直领域就可能出现杀手级应用。所以，性价比下降和开源推动垂直领域杀手级应用涌现，将是全球生成式AI的现金牛时代。

（四）DeepSeek不影响2025年美股成长性

不管DeepSeek真正的实力如何，都不会影响这轮美股的成长性。我还是坚持之前的预测，2025年美股会继续上涨，其中代表周期性的道琼斯指数比代表成长性的纳斯达克指数更稳定。美国经济正在摆脱2008年以来的低增长、低利率、低通胀陷阱，正在形成一轮新的景气周期，未来三年美股的走势基本上由经济周期决定。就像我之前预测的，2025年，美股整体上涨，代表周期性的道琼斯指数上涨，受AI影响的纳斯达克指数波动会大一些。你看，27日那天，纳斯达克指数大跌3.07%，道琼斯指数依然上涨0.65%。2025年在配置策略上，纳斯达克指数和科技七巨头回撤时买入，不要追高；同时，可以把资金往道琼斯指数和周期性龙头股调配。从长远看，未来3年，AI的商业化应用应该可以兑现，纳斯达克指数和科技七巨头能够跑赢道琼斯指数。当前，市场一直在怀疑AI泡沫风险，其实风险不大；当市场达成共识，形成美国经济景气周期和AI商业化兑现的预期，市场泡沫反而会快速堆积。

四、中美技术竞赛中的DeepSeek

中美技术竞赛，是现在正在发生，而且未来十年会越来越激烈的不可避免的主旋律。DeepSeek在中外媒体上这么火爆，中国民间很乐意看到本土学霸挑战美国硅谷的精英，而美国总统特朗普也借这个机会，强化中美技术竞争的形势。如果DeepSeek的低成本、高性价比是真实的，那么中国低成本（生产制造与技术应用）和美国高技术之间的竞争，就从制造业蔓延到了最热门的AI领域。那美国眼里的中国产业竞争力到底是什么水平呢？美国人说的不客观，中国人说的也不清楚。国内有两种倾向：一种是觉得中国技术很强大，除了美国，其他国家都不用看，还喜欢上升到意识形态的对抗；另一种是觉得中国技术很弱，拿苹果、微软和ChatGPT作对比。

我的观点是，中国产业竞争力在国际上是“七七八八”，比上不足、比下有余，不要自吹自擂，也不要妄自菲薄。美国在原创技术上，像芯片底层设计、大模型算法，是世界第一。这个第一是汇聚了天下英才才得到的，这源于美国国家制度的吸引力，这也是美国最核心的竞争力。中国在产业链上，特别是生产制造低成本和技术应用层面，是世界第一。这不用怀疑，你去长三角、珠三角的工厂，去腾讯、阿里、联想这些大厂走一圈，再去美国、日本、欧洲、越南、印度走一圈，不用深入调查，大概看看，就能明白我说的话。

中国最大的优势就是极其廉价的全产业链，为全球提供了30%多的产品。廉价全产业链的好处是为新技术的落地提供了条件，非常有利于技术应用。就拿手机来说，过去10年，苹果等智能手机不断更新换代，除了操作系统等少数顶尖技术，大部分软件和硬件的应用技术创新和落地都在中国。这是因为全球手机产业链基本都在中国。在AI方面，中国有庞大的AI基础和工程师队伍，而且很多工程师是美国顶尖高校毕业的，在美国科技公司工作过，接触到了全球最领先的技术。所以中国工程师在某些AI领域做出创新成果，并不奇怪。实际上，AI创新在硅谷的华人工程师中每天都在发生。假如这种产业格局是全球化竞争和比较优势选择的结果，那没什么大问题。

但是，现在美国觉得这不是市场竞争的结果。这到底是市场竞争的结果，还是人为设计的呢？肯定有市场的因素，比如中国劳动力人口多，工人愿意加班等等。当然，也有明显的非市场因素。比如说，要素价格均等化为什么没有发生？工人工资为什么没有快速上升？如果工人工资上升到一定水平，他们还愿意加班吗？又比如，为什么会长期存在大规模的贸易顺差？汇率机制为什么失灵？如果开放进口市场、外汇市场、金融市场，能不能平衡贸易失衡呢？我觉得这些问题是能说清楚的，但是没办法呈现出来，更不能成为双方沟通的内容。所以，贸易摩擦和技术竞争不可避免地成为主旋律。特朗普的想法很简单粗暴，他懒得区分市场因素、非市场因素，不管是民间的还是官方的因素，看到贸易逆差就生气，看到DeepSeek就来劲。他习惯用关税手段、制裁手段来施压。不只是对中国，解决边境非法移民问题的时候，他也用关税手段来警告、惩罚邻国。这次DeepSeek震惊了美国，美国人没想到，中国廉价竞争力这么快就从制造业领域渗透到AI领域了。而且，DeepSeek - R1基于MIT许可协议，允许全球开发者自由修改、使用、分发模型，这涉及到内容式AI的领导权之争。

客观地说，DeepSeek乃至整个中国AI都无法撼动美国的技术力量。但是，在中美竞争的当下，特朗普会借这个机会强调来自中国的竞争，而且可能会对半导体和AI技术领域实施更严厉的禁令。另外，特朗普政府已经宣布投资5000亿美元建设AI基础设施“星际之门”，有人把这个项目比作当年美国的“星球大战”计划。以前，我可能会说，像DeepSeek这样的产品出现，不要过度宣传，尤其不要上升到中美竞争的内宣层面。现在信息很畅通，这种内宣很快就会进入美国社交媒体，最终可能会引发更多的冲突。同一个商业故事，在全球化时代和国家竞争时代，结局是完全不同的。

DeepSeek的出现，放在20年前，可能就像淘宝的出现，一个成本更低的应用在中国诞生，然后获得美国风险投资，经过几轮融资，最终赴美上市，美国投资者获利，中国创业者创富，中国消费者得到实惠。这就是一个全球化的完美故事。但是现在，DeepSeek可能面临来自两国竞争的风险，就像深陷困境的TikTok。实际上，两国竞争，很多无辜的人会被卷入，但这是不可避免的。大多数人不能用历史的视角看待当下，现在的中国是美国从未见过的竞争对手，美国不好定义现在的中国，二者的竞争将以什么方式展开，边界在哪里，竞争领域在哪，还在探索之中。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-02-01，如有侵权请联系 cloudcommunity@tencent.com 删除

工程师