前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >AGI大基建与马拉松:2024 Q1全球大模型的前沿手记

AGI大基建与马拉松:2024 Q1全球大模型的前沿手记

作者头像
小腾资讯君
发布2024-04-17 18:07:48
2710
发布2024-04-17 18:07:48
图片
图片

2024 Q1全球大模型前沿手记:和李广密聊AGI大基建、马拉松和预言,腾讯科技,1小时21分钟#张小珺Jùn|商业访谈录6个内容

作者 | 张小珺

出品 | 腾讯新闻 《潜望》

2024年3月,我们连续从多个角度记录了中国AGI的进展与派别,接下来让我们把目光投向海外,对刚过去的2024 Q1全球大模型的赛局做一个实时的赛况观察与复盘。

“AGI本质是:电+芯片=产出智能。”拾象科技CEO李广密称,他此前是红杉资本投资人。

人类正处于一场宏大的“AGI大基建”时期。“这和曼哈顿计划、登月计划、克林顿网络大基建很像”,特别是上世纪九十年代,克林顿推出美国信息高速公路建设,为后面的美国互联网泡沫破裂与黄金20年提供了根基。在他看来,“如果没有基建,就不可能有应用大爆发”。

从基建维度,以训练一个GPT-4举例——据李广密估算,在耗电上,假设GPT-4使用8000张H100训练100天,大概需要2600万度电,大约需要三峡或上海一天发电量或用电量的5%,德州的2%;在算力上,现在最低要8000张H100有效算力,接近一个万卡集群,如果买卡,每张H100售价3万美元,再加上周边设备,3亿美元少不了,而如果租H100,1万多美元一张卡,也就是1亿到2亿美元。

随着大模型公司的加速收敛,全球看,2024年模型公司的生死线是:在技术上,年内超越GPT-4;在算力上,年内万张卡集群,而且要能用起来——“你就看未来12个月能不能有10万张H100的集群,这大概需要三五十亿美元,这是明年第一梯队模型的标配。”他说。

李广密对海外AGI的前沿进展有一手观察。他称,计算的竞争很残酷,未来只会更残酷,“每个时间阶段都会有模型公司持续的出局”。

以下是关于2024 Q1全球大模型赛况的对谈手记。(为方便阅读,作者进行了文本优化)

图片
图片

谈2024 Q1:

没想到,物理硬件成了

阻碍AGI时间表的最大因素

腾讯新闻《潜望》:我们先来盘点一下美国AI几起大事件:从过年到现在,OpenAI发布Sora,Anthropic发布Claude 3,Google和马斯克加入开源大战(分别推出Gemma和Grok),英伟达GTC被冠以“科技界春晚”头衔。

这一系列大事有没有什么让你感到shock的?他们分别对今年大模型战局或更长时间的AGI演进,影响多大?

李广密:1、GPT-4.5和GPT-5比预期来得慢,之前以为Claude 3发布后OpenAI就发新模型了,你看SOTA(State-of-the-art)模型位置易主一个月,我预感AGI战线会被拉长拉宽。

2、Sora比预期来得早,这意味今年多模态理解和生成进步幅度会很大,会解锁很多新东西,但多模态能否带来智能和AGI是很强非共识。

3、马斯克xAI加入开源,开源模型水位线会被拉升很多。xAI人才密度强,GPU也充足,决定后面很多模型公司生死线。

4、英伟达股价去年这时候觉得会涨,但没想到能涨3倍。大家都知道AGI很大,但还是低估了浪的大小。英伟达GPU是实现这轮AGI最关键的吧。短期看,老黄(黄仁勋,英伟达公司创始人兼CEO)可能比Sam Altman(OpenAI联合创始人兼CEO)重要。

腾讯新闻《潜望》:同时加入开源战局的有Google,你对Google开源的看法是什么?

李广密:Google发的还是小模型,我感觉它不会把最强模型发出来。开源主力是xAI和LLaMa。我比较担心,开源模型会打掉很多闭源模型的商业价值——比如你把GPT-3.5水平的模型开源了,大家就不一定再调用OpenAI的API接口;反之没有开源模型,大家只能选择最强模型的API。

但最强闭源模型的优化能力很强——最强模型能力最强,成本最低,我相信这个状态。后面还有“复杂推理”,要完成有经济价值的任务。如果多步推理准确性差,是完不成任务的。但现在很多简单任务,开源模型可以完成。

开源模型有开源模型的好处,很多人拿它自己用更好用,会覆盖很多企业内需求场景。

我不确定马斯克xAI会不会持续开源,如果它开源,开源模型水位很高。

腾讯新闻《潜望》:马斯克的开源模型,为今年大模型争夺赛带来了很大变量。

李广密:xAI是全球范围争夺新一梯队大模型的唯一黑马。如果它持续开源,对模型的格局生态和商业价值影响很大。

腾讯新闻《潜望》:你说“多模态能否带来智能和AGI是很强的非共识”,对于这点你怎么看?

李广密:多模态有几层作用:一是文本数据不够用,可以补充文本数据;二对用户体验有很大影响,理解能力变强;三是生成视频的效果今年也会大幅提升。但多模态的数据对模型推理能力有没有大幅提升?今天没验证。Sora到底是不是AGI主线?今天见仁见智,很难定义清楚。

腾讯新闻《潜望》:相比去年,今年翻过年的这个季度,有没有什么让你感到明显不同?

李广密:去年初觉得AGI是百米冲刺,大家没做好准备。今年觉得AGI是马拉松,大家有充足时间做好准备。

去年觉得可以无限加GPU,加数据,就能到AGI,但突然发现GPU数据中心和物理硬件是瓶颈。比如单体数据中心能放的GPU数量有限,3.2万卡再往上就要突破很多。另外美国的能源基建都是四五十年前规划的,能源结构和中国工业结构不同,突然多出来很多新增用电确实有点跟不上——今年最大感受是,物理硬件成了阻碍AGI时间表的最大因素了。

腾讯新闻《潜望》:2024年,全球大模型场上的梯队有哪些新变化?

李广密:OpenAI、Anthropic、Gemini是非常确定的第一梯队。xAI、欧洲Mistral、LLaMa是比较确定的第二梯队。xAI是硅谷最大而且可能唯一的黑马,期待夏天or年底前能不能做出GPT-4水平模型,冲到第一梯队。

Inflection已掉队出局,Character.AI、Cohere今年挑战很大,有可能年内就要找买家。训练GPT-4水平的模型很难,很多人还没真正规划训练GPT-4水平模型。

腾讯新闻《潜望》:Inflection提供了一个怎样的失败案例?——有人说它是第一个失败的VC重注的大模型公司。

李广密:没想到模型收敛如此之快,计算竞争是很残酷的。

大模型VC是投不动的,还是巨头的游戏。Inflection没有绑定一个更深的巨头。另外,要看人才密度,前三家公司加上马斯克的xAI明显高一截。

腾讯新闻《潜望》:能不能聊聊对今年GTC的感受?怎么评价老黄这个人?

李广密:硅谷最靓的仔从马斯克切换到老黄了,很多马斯克的粉丝变成老黄的粉丝,投资者股票资金也从Tesla转到英伟达。

老黄直接驱动了这波AGI浪潮,贡献不输OpenAI。之前听到一个说法是“算法等了算力30年”,非常形象。我希望AGI不要因为算力不够而停下。你看过去几十年,半导体应该算得上人类最伟大发明,计算还会驱动未来几十年。未来几十年人类都要给老黄缴算力税——这就像过去十年所有人给苹果交入口税。

老黄“销售能力超强”。以前 GPU卖给科技公司,现在又提“主权AI”,要把GPU卖给政府,吃国防预算,市场规模又大一步。你看美国军费每年8800亿美金,如果拿2-3%买GPU,是很大的量。你说GPU是不是很重要的战略储备物资?是极其重要的。

另外,老黄有一个习惯,叫T5T——内部每双周、每个大组内会发出最重要的五件事。

老黄好像不鼓励996,鼓励员工在办公室吃早饭和午饭,但鼓励大家晚饭回家陪家人。

图片
图片

谈AGI登山图:

南坡是模型,北坡是产品

腾讯新闻《潜望》:接下来我们来谈谈AGI。首先定义一下AGI,对AGI的定义现在是共识吗?

李广密:对AGI的理解还没共识,有几个角度:

1、最激进情况,AGI能在90%行业、超过90%专家、完成90%有经济价值的工作——这三个90%很激进。Sam提过,不该从替代人的视角思考,而是工作任务中多少需要5秒就能完成,这些会被模型取代。

2、AGI什么最重要?智能能力本身最重要。今天讨论什么形态可能不重要,什么载体也不重要,最重要的是智能能力本身,但肯定会从数字世界走向物理世界。物理机器人和设备,怎么把智能能力产品化,是创业者的机会。

3、AGI不是一蹴而就,不太像是憋几年大招在某年实现AGI就把所有秒杀——关键词是“渐进式解锁”——如果画一条登山路线图,模型能力每年涨一些,就会解锁一些场景,诞生一些应用,创造相应经济价值。

听到最强叙事是,AGI可以在未来15-20年帮全球GDP翻倍,从100T(trillion,万亿美元)涨到200T。但今天100T GDP和这波AGI直接相关的可能0.1%不到,离解锁90%很遥远。目前就体现在Coding写代码效率高,信息检索和复杂问题问答效率在提高,往后10-20年是从今天只解锁0.1%走到解锁90%的过程。

一定要理解“渐进式解锁”。我们一直在画一个路线图,未来AGI登顶过程分别有哪些东西?——眼前我最期待的是改变软件生产方式+信息检索的变革。

腾讯新闻《潜望》:先从近处看,眼前是改变软件生产方式+信息检索的变革,也就是说,它会颠覆SaaS行业和Google?

李广密:三年内有机会看到Coding领域的局部AGI,也就是任务做得不错的程序员,带来软件生产方式革命。人类大部分任务没有像软件开发那样有明确的目标和逻辑,软件生成变革会最快。

改变软件生产方式:过去软件像自动售卖机,有限SKU供给,有大量长尾非标需求没被满足。未来应该是酒吧调酒师,任何口味都可以调出来,长尾需求大。

未来的软件开发状态是,精准的甚至简单的自然语言描述需求,模型如果能用现有工具就调用工具解决,如果没有满足的工具,那模型编程,甚至生成复杂的代码,自己run code(运行代码)或debug(调试),会多出非常多软件程序。开发者数量可能不是今天的几千万,而是人人都是,门槛大幅降低。有可能微软+OpenAI会很激进,把很多工具feature型的SaaS干掉,只有积累复杂workflow和很不一样数据的能发展更好,如Salesforce、ServiceNow。

挑战Google:过去20多年,无数对手挑战Google都失败了,很大原因是没有fundamental技术变革,这一次LLM给了大家机会。另外,Google绝大多数是事实性搜索,如电商、旅游、YouTube网站,问答一直很难,是皇冠上的明珠,解决很难的问题后更能得到用户的信任,有更长期的用户留存和广告价值。

腾讯新闻《潜望》:在这种情况下,你建议SaaS公司如何转型?

李广密:只能拥抱年轻人。以前软件开发的方式跟现在软件开发的方式有fundamental(根本性)不同。以前是把固定需求抽象出来,一个开发团队去开发,今天是不确定的需求,未来要用好模型的能力。

腾讯新闻《潜望》:更长远看,AGI对于人类社会可预见的改变,在多长时间的维度中能有多大?这波浪潮中将诞生的巨头会比互联网时代更庞大吗?

李广密:AGI是科学问题,不完全是商业问题,背后是永无止境research发现精神,探索全新的一些能力,即“能源+芯片=产出智能”。未来就看智能产出效率能有多高,你看智能怎么定价?

科技进步是创造增量经济价值贡献最大的要素,每波技术变革都能让头部公司大一个数量级。之前做VC觉得投到独角兽就很牛,今天融资单位都是billion级别,钱也毛了。

我有一个切身体会:2010年你看着2000多亿美元的苹果,不会想象地球上能有1万亿美金市值的公司。2016年我们看着英伟达从200多亿美金涨到千亿美金,更不会想到能涨到今天这么大。还是回到今天最大非共识:不知道AGI有多大。

最简单叙事,AGI是以全球GDP为计量单位,未来你能渗透到GDP take rate百分比,如果你增加100T,AI拿走10%,就是10T,或者多出3亿白领乘以3.3万年薪,也是10T,这还是收入,市值乘以10倍吧。计量单位发生了很大变化。

腾讯新闻《潜望》:很有意思,今天融资单位变成了billion级,这在中美的商业史上出现过类似情形吗?

李广密:为什么把AGI比作大基建?中国做了很多,如公路建设、电信5G建设、城市化建设,有了这些才有短视频、直播、外卖爆发,这是远超billion甚至trillion级的基建投入。甚至电商、物流建设也都是巨大投入。今天AI投算力、投新型数据中心,就是处在基础大基建状态,这是一直在发生的。

你再看美国比较早的有曼哈顿计划造出原子弹,更重要的是计算机体系在那诞生,再后来美国登月。美国登月一个重要意义在于电子产品微型化,才有了个人电脑。93年克林顿推出美国信息高速公路建设,投了GDP的5%,才有了后面的互联网bubble(泡沫)也好,美国互联网黄金的20年也好,都跟基建有关——如果没有基建,没法谈应用大爆发。

腾讯新闻《潜望》:构建一下你眼中关键的AGI登山路线图?

李广密:两面——南坡是模型,北坡是产品。

模型最底层逻辑是Scaling Law(规模定律),更多数据,更多GPU,更多能源,就看产出智能的效率能否持续提高。

模型最关键的能力是Reasoning推理能力,后面要有复杂推理能力,才能完成有经济价值的任务。Coding代码能力很重要,可能是AGI落地最早信号,既是一个走向AGI的能力,也可能是核心产品,改变软件生产方式。

多模态能力也很关键,不仅补充text data不够用,更重要的是输入输出交互效率更高,今年多模态进步会很大,对自动驾驶和机器人有提速作用。

Agent(智能体)也是关键词,但今天Agent还不太work,模型Reasoning推理能力不够强,准确度不够高,多步推理下做任务很多是失败的。模型公司可能就是Agent公司。很多Agent,大模型本身就会自己做,只是能不能做好的问题。接下来模型公司一个大的附加值可能会体现在Agent,因为第一波叙事大家都讲了Scaling Law,后面大家可能就会讲Agent。

这是南坡模型能力相关,你说北坡,产品上——就看接下来谁能做出上亿活跃用户的Killer App(杀手级应用)。今天只有ChatGPT,我期待信息检索有大变化,因为搜索之前搜出来是链接和网页,现在搜出来是答案。未来还有多模态的搜索,甚至更多主动式交互,模型直接推你潜在想要的。

从ChatGPT用户增长角度,它过去5000万DAU横盘几个月,如果它积极做用户增长,一定要做搜索才能突破几亿活跃用户,这是挑战Google过去20年可能唯一的技术窗口。今年比较期待看ChatGPT能不能做好这个。

另一个我最期待的,如果你让模型看一万次苹果掉下来,它能不能发现万有引力定律?如果更充足、更广泛的数据灌进去,能不能发现人类没发现的问题和规律?这又是一个新的文艺复兴。

腾讯新闻《潜望》:模型和产品,这两个都要一家公司来做吗?有可能一家公司爬南坡,一家公司爬北坡?

李广密:你看Sam最新访谈说OpenAI在做地球上最难的两个事,一是AGI,一是Killer App。Anthropic专注只做AGI,没挑战另一个。不一定非得在一个公司,在一个公司对组织能力,对文化、人才和资源,挑战很大,需要极强的领导力、资源和组织能力。

腾讯新闻《潜望》:模型和产品需要的人才画像不一样,怎么把他们组织在一起?

李广密:画像很不一样。如果一个产品在解决某项任务的时候能力不行,没法向下改模型。如果一个模型公司发现某类任务解决不好,可以定向改数据、调模型。这是简单题和难题的问题。我相信模型公司做产品更容易,是顺手。产品公司想改模型,没有这方面人,你又改不了模型,是较难的。

我有一个判断,有可能模型公司是价值沉淀最厚一个地方。就像移动互联网,价值沉淀到了设备厂商或广告平台,模型的附加价值后面是比较高的。

一个是老黄收GPU税,一个是模型公司收智能税,突然给经济社会又加了两道税。

腾讯新闻《潜望》:所谓我的模型能力最强,我就可以顺理成章解锁最伟大应用,这个逻辑通吗?现在有两种做法——一种是,我要通往AGI,我在路上去解锁应用;另一种是,我也做AGI,但同时我孵化特别多应用,做App工厂。这两种你更看好哪一种?

李广密:你就看SpaceX,它的火箭发射能力是基础能力,但这个能力并不太赚钱,可能每年几十亿美金收入,但是它的一个Killer App是Starlink星链,现在几百万部署终端了,每个终端还收挺多钱。

如果没有火箭发射这个关键能力,Starlink发不上去,没法组网。有可能它还有第二个Killer App,就是Starship,想颠覆波音、空客,未来上海到纽约两小时。之后可能还有更多Killer App。

但也有另一个说法,如果大模型是电,灯泡可能不一定是电厂做出来,所以在变化中。

我更倾向大模型公司是基础发现的research lab(研究实验室),有的lab可能有商业能力,会做出头部应用,但比较考验组织能力。有可能中国创业者在这方面更强。

腾讯新闻《潜望》:ChatGPT和Sora分别属于AGI登山图上的什么路标?

李广密:ChatGPT成功有偶然运气成分,让AGI概念进入千家万户,科普和募集资源的帮助更大,是里程碑。Sora和AGI、智能有啥直接关系还是非共识,只能说明OpenAI战线铺得更宽,而不是高度聚焦AGI。

腾讯新闻《潜望》:复刻Sora难吗?模型规模有大?需要多少算力、数据?数据来源是什么?

李广密:OpenAI没有公开Sora数据,但根据技术报告和里面提到的架构可以做估算。训练环节对算力需求是LLM的好几倍,我们估计大约需要在4200到10500张H100上训练1个月,这只是最后训练,不算前期实验探索。

推理的算力消耗要比训练更大,如果生成TikTok一天上传视频的量,推理成本就增加到了训练成本等同。这两个成本都很高。

另外数据,估计要收集几千万到上亿个小时的视频数据,还得打标签。OpenAI可以用GPT-4V打标签,一般团队不好弄。到底什么数据我们不知道,只能猜,你看Sora效果和游戏场景很接近,估计是用一些游戏数据。

OpenAI CTO Mira说得把推理成本降到和生成图片差不多的水平,才会考虑公开release Sora。

腾讯新闻《潜望》:创业公司应该跟进Sora吗?

李广密:很凶险。融资能力极强的公司可以试试,除非能融到几亿美金?

需要的数据难度介于LLM和机器人之间,获取数据的难度很大,卡和数据成本都很高。但最后产出结果还有争议性,视频生成还不一定代表智能。即便做了一个模型,如果不是业界最领先,别人也不一定用。

创业公司还不如想想下一步,怎么定义Sora产品形态和新的AI内容消费形态。

图片
图片

谈大基建:

电+芯片=产出智能

腾讯新闻《潜望》:我们把当下比作“AGI大基建时期”,目前AGI大基建最大瓶颈在哪?这些瓶颈是只要有时间就可以解决的吗?

李广密:目前瓶颈是算力和数据中心建设,今天给你几万张H100,你三个月内不一定能用起来万张卡集群。万卡集群互联通信难度很大,稳定性要求很高。GPU数据中心能耗更高,对降温要求更高,很多人都在提液冷。

比特驱动的数字世界迭代很快,但原子驱动的物理世界迭代跟不上,这需要物理机器很长周期的基建迭代跟进。历史上软件和硬件进步是交替的,硅谷头30年是计算时代,后来20年是网络数字化时代,今天又进入了计算时代。

但好在这些物理问题都不是research问题,是工程基建投入问题,随着时间可解决。短期瓶颈还是GPU产能,包括台积电产能,CoWos(晶圆基板上芯片)和HBM(一款新型的CPU/GPU内存芯片)这些。

腾讯新闻《潜望》:拆开说,训练一个GPT-3.5或GPT-4水平的模型,需要消耗多大算力和多少能源?

李广密:三峡单日最大发电量和上海日均用电量差不多,都在5亿度左右,美国整个Texas德州是10亿度多一些。

假设GPT-3.5使用500张H100训练15天,大概需要25万度电,也就是三峡产电量或上海的用电量一天的0.05%左右,德州的0.02%。

假设GPT-4使用8000张H100训练100天,大概需要2600万度电,需要三峡或上海一天的5%左右,德州的2%。

假设GPT-5使用3.2万张H100训练100天,大概需要1.1亿度电,需要三峡或上海一天的20%左右,德州的8-10%。

你要算成本的话,每张H100租用最低3-4美元/小时,大客户能再便宜点。

腾讯新闻《潜望》:训练到GPT-4水平,需要多少钱?

李广密:一个GPT-4现在最低也要8000张H100有效算力,接近一个万卡集群。你要是买卡,每张H100售价3万美金,再加上周边设备,3亿美金是少不了的。

当然你也可以租。如果是租H100 ,一年如果折扣比较好,1万多美金一张卡,就是差不多1亿到2亿美元。

但今天的万卡集群中国比较少,万卡集群很难,每个卡都要连起来。网络拓扑结构很复杂,不是说一层网络,是三层网络。

腾讯新闻《潜望》:算力从千卡集群到万卡集群再到现在的三万卡集群中心,造价成本是多少?难度有多大?

李广密:每张H100售价3万美金,加上周边设备差不多4万美金,8000卡就意味3亿多美金,3.2万卡集群意味12-13亿美金。明年可能标配是10万张卡,就是差不多40-50亿美金。

最难的还是资源越来越集中收敛,能建大集群的客户很少,会收敛到极少的4-5家客户——微软,Meta,AWS;微软包含OpenAl;Google有自己的TPU,它可以很大集群;xAI可能也是一个。

影响难度的因素是,要找到适合数据中心的土地,稳定且便宜的电,之后是数据中心的互联通信、降温冷却、运维稳定可靠。还是回到那个问题,物理世界比数字世界改造要慢。

腾讯新闻《潜望》:大基建现在有哪些公司在投资?进展如何?

李广密:就看英伟达GPU出货量+TPU出货量,或者计算台积电产能。Meta和微软应该买走超过1/3 GPU的数量。

美股AI相关最大的几个生意:第一波最受益的是芯片,芯片里最受益的是英伟达和台积电;第二波是广告平台Meta和Google(广告匹配效率提升);第三波云厂商,微软、AWS,因为芯片和模型都要跑在云厂商上,企业客户继续上云需求很强,云厂商未来每年很长时间保持年化15%复合增长都有可能;最后是两个终端Apple和Tesla——这些都是大基建最重要的几个关键玩家。

腾讯新闻《潜望》:OpenAI在基建上,截至目前投入有多大?

李广密:不知道具体,你就看微软累计投入给OpenAI 130亿美元,这个累计够买30-40万张卡。你再计算英伟达GPU出货量,每年400万片GPU,大概多少比例给到OpenAI。如果5%就是每年新增20万片,每张卡3万美金,加上周边设备和未来电费,5万美金,那就是要一年100亿美元硬件投入。这样算OpenAI钱不够,还得做更大规模的融资,每年几个billion(十亿美金)投入。

如果按摊销每一年,那融资不用那么着急,如果一张H100每年起码1-1.5万美元租用费,最低折扣的话。

腾讯新闻《潜望》:这些大基建的成本有可能分摊出去吗?必须要是模型公司自己承担吗?比如政府。

李广密:有可能。未来有可能随着“主权AI”概念更深入,政府投资一家或多家模型公司是有可能的,而且大比例投资。你看欧洲有Mistral,我不知道欧洲是不是独立或半独立市场,如果欧洲的资源怼到Mistral,有可能它就得拿政府的钱了。

腾讯新闻《潜望》:你预计AGI基建的时间表是怎样的?达到什么程度意味着大基建完成?

李广密:时间表拉长了,主要是去年太兴奋觉得2-3年内实现AGI。现在预期更长,所以叫马拉松,至少3-5年或5-10年。得动态看,也看每个人对AGI的定义不一样。

去年预期是23年底就能看到GPT-5,能力可以超过一半同事,预期太高。去年这时候OpenAI先后发布了ChatGPT、GPT-3.5、GPT-4,大家觉得节奏快,这些模型都是之前OpenAI多年积累,提前训练好的,只是去年同时发出来。但过去一年没有出现大幅超越GPT-4的模型。

训练很大的模型是很难的,不仅是数字世界问题,很多是物理硬件问题——比如实际H100规模化到货都是23年Q4,数据中心建设也都要3-6个月,还要把利用率提上去。

人的预期可以飞上天,比特驱动的数字世界可以迭代很快,但原子主导的物理世界跟不上——就像你有意志力和体力跑马拉松,膝盖一个小环节出问题就跑不下去。膝盖问题可能不只是膝盖问题,是肌肉问题,而肌肉问题可能是训练方式问题。

大基建看不到结束那天。过去几十年半导体是最伟大发明,摩尔定律还在以新方式继续。

腾讯新闻《潜望》:大基建周期之中,预期全球投入花多少钱?泡沫有多大?

李广密:2024年GPU大概400万片产能,2025年600多万片GPU,未来每年复合增速不低于30%。三四年后,AI GPU应该是3000-4000亿美元产业规模,这里还不包括TPU和其他未来的ASIC芯片。

AGI刚开始,长期看不算泡沫,把钱交给最厉害的科学家探索发现,有时一个新发现是能带来很大经济价值甚至社会价值的突破。

计算迭代停不下来,比如单颗芯片现在的摩尔定律还在提,依然没停下来,但进步速度变慢了。现在老黄又在提整个数据中心的摩尔定律,它通过互联,把整个数据中心变成一个大芯片,用这种方式继续。还有一种,未来还可以跨数据中心,能不能效率更高?这是停不下来了。如果你非要说一个时间,10-20年是一个大基建周期。

腾讯新闻《潜望》:中国AGI大基建和美国AGI大基建,两边叙事差异是什么?

李广密:美国历史上有大航海精神发现,包括开垦美洲大陆、曼哈顿计划造原子弹、登月、90年代克林顿网络都属于大基建,是面对不确定性的乐观、勇于冒险精神。美国资本和退出都很富足,富得早,有足够多的资本来做fundamental从0到1的试错发现。历史上很多从0到1的东西是美国搞出来,不管硅谷的芯片、计算机、互联网,波士顿的制药,他们文化里有重投入的传统,相信科学。

不过硅谷VC很不争气,近乎全线miss大模型投资,他们好像对大模型的理解也很浅,全是巨头支持。中国VC更争气有出息吧,还支持了几家大模型公司从0到1发展起来。

从Power Law(幂次定律)角度,硅谷主流的VC文化也不喜欢大模型这种“基建”型公司,SpaceX、Tesla几乎没啥硅谷VC参与。甚至在 LLM/AGI之前,机器人也属于很边缘的赛道,而现在是硅谷最火的赛道。硅谷VC喜欢花小钱办大事,这次不一样了。可能整个硅谷VC要交学费,价值沉淀大头会在基础大模型。

中国是解决问题的能力很强,提出新问题少,0-1很少,1-100很强。今天中国还在追GPT-4叙事,以及追谁是第一名。目前中国大模型的技术辨识度不高,差异不大,大家过了3.5水平,但3.5到4的跨度是不小的。

腾讯新闻《潜望》:美国VC喜欢花小钱办大事,这不就是VC的本质吗?以小博大。

李广密:VC最应该是小钱办大事,但也有需要大钱的时候。

腾讯新闻《潜望》:怎么看这次中国VC更争气这件事,他们为什么愿意大手笔支持大基建?

李广密:因为美国有对标(笑)——中国VC都还是喜欢投有对标的东西,我们擅长解题。

腾讯新闻《潜望》:为什么马斯克提能源问题?能源转化效率可量化吗?

李广密:AGI本质是:电+芯片=产出智能,主要是今天怎么对智能定价?就像开车一脚油从A走到B,可以计算单位里程能耗,今天对智能没办法定价。我也好奇未来怎么定价。现在都是20美元/月,未来能不能有value based定价机制。

腾讯新闻《潜望》:在技术上、基建投入上,模型公司如果想跨越生死线,有一个基本标准吗?

李广密:技术上:今年内超越GPT-4,背后是一支很优秀的团队,参考马斯克xAI。

二三线和国内模型公司:超越最好的开源模型,不然模型商业价值很小。

算力上:今年内万张卡集群,而且要能用起来,能做好的公司很少。你就看未来12个月能不能有10万张H100的集群,这大概是三五十亿美元,这是明年第一梯队模型的标配。

计算的竞争就是很残酷的,未来可能更残酷,每个时间阶段都会有模型公司持续的出局。

图片
图片

谈Scaling Law:

微软和OpenAI的关系也挺复杂的

腾讯新闻《潜望》:今天看,Scaling Law是加速增长,线性增长,还是放平缓了?

李广密:从细节来看:GPT-4公开的是1.8T参数,MoE架构,大概13T训练数据,2.5万张A100训练100天。

外界都在猜测GPT下一代模型能scale up多少倍?我们就假设如果是3倍参数,3倍多数据,那就是9倍compute资源。你看老黄公布了3.2万张H100集群,加上一些优化效率提升,是差不多match的。你要说10倍参数提升和10倍数据提升,那就是100倍compute资源提升,很明显GPU算力集群不够用,这里受限是物理机器瓶颈。

今天增加数据可能比增加参数的ROI要高,好像高质量数据永远不嫌多。之前都说文本数据用差不多了,通过改写和合成能再扩大小几倍。今天真让你拿来10倍100T高质量数据好像有点难。可能没有人能拿出来。

另外,怎么把多模态数据和文本数据一起训练也挺难,是research问题,因为很容易伤害原来的模型。

现在对Scaling Law一个判断是,训练GPT-5数据够用,但GPT-6可能需要一些突破。未来1-2年Scaling Law没问题。如果非说一个结论——Scaling Law 起码没减速;如果说变慢了,那就是算力和数据没怼够。GPT-3.5走到GPT-4大概多了20-30倍算力,GPT-4走向下一代还没怼够20-30倍有效算力。只要有有效算力和更多数据,一定有新东西出现。

这会影响到整个算力市场,围绕芯片、数据中心、互联。接下来两年除了research问题,OpenAI、微软以及其他所有竞争对手,有50%甚至更多精力都会花在如何解决算力和互联的问题。

这不光是一场research lab关于research的竞争,而是一场巨头博弈,research lab 和巨头互相leverage(影响、杠杆),对人才、用户、算力、policy、舆论、股价等资源多方争夺,互相角力的竞争——你看微软今年的动作,又投资Mistral,又投资Inflection,又自己招人在训大模型——它和OpenAI关系也挺复杂的。

腾讯新闻《潜望》:评价一下微软这一系列动作。

李广密:站住最稳的位置。

腾讯新闻《潜望》:Scaling Law走下去会遇到哪些瓶颈?能走多远?

李广密:就看两个关键要素:第一,Data;第二,GPU。

电力不是research问题,是通过投入能解决的。反正Scaling Law这个问题的结论是受限物理计算瓶颈,所以Sam提出筹集7万亿美金和造芯片是有道理的。

另外,效率很重要,一个是compute efficiency,一个是data efficiency。这里有趣的就是衡量大家的效率,同样训练一个GPT-3.5能力水平的模型,需要多少张GPU?多少训练数据?这个训练效率可能是数量级差别——有人几千张,有人几百张就够,range很大。最后,AGI本质还是拼的用“能源+芯片”产出智能的效率。

最后从架构上,Agent能不能最终完成有经济价值的复杂任务,next token到底能不能解决长期规划的问题,这是接下来值得关注的。如果不能,scaling下去意义不大。

腾讯新闻《潜望》:模型会无限变大吗?

李广密:我觉得会无限变大,参数大10倍甚至100倍,数据大10倍、100倍甚至1000倍。

训练大模型是为了探索能力边界,是科学发现问题,但大家都会训练更小的模型满足商用,成本很低。GPT-3.5也验证了这件事,我可以用训练SOTA大模型百分之一到十分之一的资源训练一个更efficient模型,能力上也能覆盖60-70% query(查询),不见得明显比SOTA差太多,但成本低一到两个数量级。今天从头训练一个GPT-3.5水平模型应该不用太多卡。

科普一个基本公式:训练量多大=参数量x训练token量x6

number of parameters x tokens to train x 6 =number of GPU x FLOPS per GPU per second x Time x utilization

举例,GPT-4:1.8 trillion 参数 x 13 trillion token x 6 = 25,000 GPU x 19.5 TFLOPs(19.5 万亿次) x 60s x 60mins x 24h x 100days x 利用率(利用率能到50%属于比较好的,最强的能到60%-70%)

腾讯新闻《潜望》:Scaling Law一定能通向AGI吗?

李广密:这是最大概率的一条路线,我们没找到除了这条路以外的其他路径。在没有证伪之前要怼更多资源去验证。

腾讯新闻《潜望》:你认可朱啸虎的观点吗?他说,AGI 5到10年内是看不见的——“可控核聚变实现前,我不太相信地球有足够的算力能够实现真正的AGI。帮人类降低90%的工作可能未来3到5年可以实现,但最后10%需要天量的算力和能耗,这也是为什么Sam Altman想融天量的资金!”

李广密:大部分观点是认可的,VC喜欢小钱办大事。回头看微软第一台计算机做出来的时候,盖茨也很难相信内存能从那时候的多少K到现在的多少GB。我们还是相信摩尔定律,以及模型的计算效率会提升,推理效率也会大幅提升,同时硬件的memory(存储)、模型本身的context window(上下文窗口)也能提升很多。这些都提升上去后,人真的可以把自己所有的历史都当成context去运行。即使在这个过程中模型也还是会解锁很多新技能。

朱啸虎提到帮人类降低90%工作,这个经济价值挺高,3-5年如果实现,这个观点很乐观了。

我同意能量量级需要升级的观点,很多数据中心建在核电站旁边,AWS最近收购了一个美国最大核电站旁边的数据中心。

我对AGI理解的关键词是“渐进式解锁”,不是一蹴而就。今天Tesla FSD(高级自动驾驶辅助系统)的安全性已经超过平均司机了,计算机视觉识别人脸和做广告商品识别推荐效率也比人高。我对5-10年内看见AGI充满信心,相信科学会有突破,相信这批全球最聪明厉害的科学家,这和曼哈顿计划、登月计划、克林顿网络大基建很像。

腾讯新闻《潜望》:朱啸虎还有一个观点是,GPT-5以后大模型的技术曲线基本会放缓下来。

李广密:技术发展不是线性的,可能平台期2年,再跳变跃升一次,有一个更大主声浪。几十万张卡训练AGI,可能比登月对人类的经济价值更大。我认为,模型作为新的平台,确定性已经很高了。

图片
图片

预测OpenAI:

挑软柿子嘛,就打Google

腾讯新闻《潜望》:你说最近几个月对OpenAI有了新认知,能不能展开讲讲?

李广密:我一开始觉得AGI公司不应该太激进做产品,OpenAI现在也很激进地做产品。你一边做科学发现,一边做商业化,要把这些发现的价值接住。这意味OpenAI会和一部分创业公司抢市场,当然肯定也有很多垂直行业它做不了。

如果我是Sam,AGI如果10年,每年都需要几个billion甚至10个billion投入,我需要商业化,需要有持续健康的现金流支持AGI。纯靠融资是很难融到那么多钱,你也不能只依赖微软——健康地走向AGI很关键。

腾讯新闻《潜望》:在你看来,有什么是OpenAI这家公司会做的,什么是他们不会做的?

李广密:他们AGI和超级应用都想做。To B企业客户对OpenAI难一些,企业客户是信任生意。微软在企业客户信任太深,To B大部分价值会被微软吃掉。OpenAI就做到模型领先和To C产品能有流量入口。

OpenAI垂直领域不一定会做,否则战线太宽,但是垂直领域的数据它可能会持续加上去,要把一些use case给做得更好,让创业公司用它的模型服务最后一公里的客户。法律/教育/金融估计不一定。机器人不好说,它以前做过,觉得太慢,过去一年投了3家机器人公司,今天在扶持。如果机会到了,它有可能自己做机器人,因为机器人从数字世界走向物理世界,是AGI比较关键的。

如果是我,我会先把ChatGPT从5000万DAU做到3个亿,有可能这会对Google产生fundamental影响。你看ChatGPT现在不到1000万付费用户,如果我做到3000万付费用户,是每年60亿美金订阅收入,那就可以健康支撑AGI每年的投入。

就拿mega7放在竞争视角对比,OpenAI很难和微软竞争To B企业市场,短期也很难和英伟达竞争芯片市场,更难和Apple竞争消费终端市场,大概率Google是个软柿子,可以去抢信息检索的市场,这比较make sense。

(接下来OpenAI)会做更强模型,ChatGPT活跃用户规模考虑怎么再翻个三五倍甚至更多?挑软柿子嘛,就打Google——Google的市场太肥了。

腾讯新闻《潜望》:OpenAI凭什么估值1000亿美元?

李广密:你把它看成微软的AI部门,微软因此涨了1T到1.5T。你看Tesla AI都值2000-3000亿美元。

腾讯新闻《潜望》:怎么看Sam 提出的7万亿美金芯片计划?中东在全球大模型战局扮演什么角色?

李广密:微软和OpenAI应该做ASIC芯片,或者起码具备这个能力。如果AGI是长跑,今天应该做准备。会不会有一个新的芯片联盟出现?主要是英伟达卖太贵了。肯定不会有7万亿美金这么多钱,但需要不少钱,中东是潜在最大出资方。

腾讯新闻《潜望》:你对GPT-5的预测是什么?

李广密:夏天or下半年推出?也是猜测。看能不能涌现新能力?能不能解决复杂任务?Agent能不能落地?

腾讯新闻《潜望》:现在2024年刚刚过完一个季度,你对接下来三个季度的AGI演进有哪些预测?

李广密:有很多期待。

1.GPT下一代 SOTA模型scale up幅度多大,是观测Scaling Law work的最重要指标。以及,下一代模型能涌现哪些新能力?

2.OpenAI这家公司能不能做好产品?如果他们做信息检索,会不会对Google产生fundamental影响?

3.多模态进一步怎么样?可能对自动驾驶和机器人影响最大的。

4.如果今年是收敛之年,年底收敛到几家模型?

5.会不会有GPT-4水平的开源模型出来?

6.单一模态的创业公司会怎样?单模态公司如果只做模型是很危险的,但如果把产品链做得很好好像也有壁垒。

图片
图片

推演进一步结盟:

期待Apple、英伟达、Meta如何做选择

腾讯新闻《潜望》:现在美国大模型赛场上是集团军作战,接下来会有更多结盟吗?

李广密:微软和OpenAI联盟目前是稳定的;AWS和Anthropic继续互相更深入绑定,AWS销售已经全线卖Claude 3了;Google自成一体;马斯克xAI长期不排除并入Tesla或Twitter的可能性;欧洲Mistral必须有个大腿支持,他们之前效率很高,2k H100做到现在水平,未来1年至少需要10-30亿美金融资,万张卡集群,不然后面也会掉队。

比较期待Apple、英伟达、Meta如何做选择。

OpenAI买一家芯片公司,形成新的芯片联盟?

Apple发了一些小模型,但Apple短期追上GPT-4水平比较难。但手机还是最重要的入口和习惯,Apple的位置长期是比较稳的。Apple训练很大的模型,今天看追不上OpenAI,但他们肯定是云和端结合,调用多个模型也不是没可能。

腾讯新闻《潜望》:你怎么看他们放弃了造车?

李广密:美国制造业不太行,也没等到自动驾驶来。

很多人都在提AI PC、AI手机。但真的把一个大模型变成小模型装到端上,很难,因为现在1B模型做不了太多,但手机跑1B模型能耗要求比较高,这又回到那个物理问题,物理迭代比较慢。如果你手机放一个比较大的模型,内存也要很大,电池也要很大,这个手机迭代比较慢。包括Tesla FSD在端上,因为它要latency(延迟)要求很高,也不能太大。

腾讯新闻《潜望》:英伟达会绑定模型公司吗?

李广密:有很大可能。如果我是英伟达,我不希望OpenAI一家独大,多扶持三五家可以更多卖卡。如果OpenAI一家独大,英伟达PE又得下来一截。

腾讯新闻《潜望》:怎么看这几个月中国大模型公司和巨头的结盟动态?(阿里有大动作,投了所有中国大模型创业公司。)

李广密:云可能是比芯片和模型大个3-5倍的生意,最后更多生产流程继续上云,但这里价值链分配比例会发生变化,所以阿里云必须要投入。期待阿里新CEO吴妈(吴泳铭)能成为微软CEO Satya一样的人,让阿里大象起舞。

腾讯新闻《潜望》:为什么阿里是同时分散投到多家而不是全部重注到一家模型公司?

李广密:(国内模型公司)技术辨识度不够高。另外我的投资可以绑定算力消耗,最后钱都还是要回来的。如果我投出去一块钱,训练又花一块钱,我的收入又多了一块钱,那我的市值可能又是10块钱。

图片
图片

谈 Sam、黄仁勋和马斯克:

我一直没搞懂Sam怎么有那么多钱?

他也没大的退出啊…

腾讯新闻《潜望》:最后,我们聊几个硅谷的重要人物吧,你怎么评价Sam Altman?

李广密:Sam有很多争议,但在OpenAI成名前,他坚持做这家公司七年,在很多人都不相信LLM能成的情况下,这点非常值得尊敬。相比起来,马斯克是中间放弃,现在回过头来觉得这个东西好。

OpenAI在同时做地球上两件最难的事:AGI + Killer App,两种culture平衡很难。Sam有勇气去探索一些别人没有探索过的东西,比如复杂的公司架构,比如敢于提出硅谷需要一些投入资金和时间成本巨大的项目。也确实在这上面吃了亏。

Sam在采访里让人印象比较深的一个点是,他对GPT-4的形容是sucks(很糟糕),他表现出对产品和模型的要求很高,认为GPT-4离想要达到的目标还非常远,明年看GPT-4就是小模型或者很笨,不应该觉得现在的产品已经amazing了。我比较认可Sam的一句话,科技进步创造经济价值增长,所以要提高科学发现的速度。

Sam个人好像投资很多,感觉得有几个billion,我一直没搞懂他怎么有那么多钱?他之前也没大的退出啊……

腾讯新闻《潜望》:怎么看马斯克和OpenAI之间的官司?

李广密:xAI打不过OpenAI?OpenAI变成了最靓的仔,散户的钱在从Tesla流出,马斯克得维护最靓的仔的形象,Tesla才有高PE估值。

马斯克肯定也不爽吧,毕竟这个idea是他发起的,结果今天和自己无关,没捞到什么好处。不过OpenAI后来变成一个商业盈利组织,和之前非盈利的初心是有些冲突的,但纯粹的非盈利组织很难获取太多资源训练大的模型,Sam找到微软合作也没毛病。

腾讯新闻《潜望》:怎么看Sam和黄仁勋在硅谷的地位,谁更高?

李广密:短期还是老黄地位高,英伟达是人类基石公司,没有老黄不行,没有Sam AGI也许也可以实现。但长期来说OpenAI价值也许更大,Sam成为智能的新教主,前提是芯片不受限英伟达。未来商业社会多两层收税的公司,英伟达收芯片算力税,OpenAI收模型智能税。

腾讯新闻《潜望》:AGI时代,现在美国VC都在投什么?他们今年更激进还是更保守了?

李广密:硅谷投资的主题已经变成Coding、Agent和机器人三大件。不过这三大件我有很大怀疑,Coding一定是大模型公司和微软的核心射程内,核心能力都来自模型公司,不确定上层优化价值有多大。

基础模型公司都会很激进做Agent,因为这个附加值高,模型即能力,模型即应用,模型即Agent,整个价值沉淀我觉得还是基础模型本身。

Cognition和Magic没有收入,就有 20 亿美元估值,说明了对Coding和Agent的hype(炒作)比较高。

机器人是几乎所有researcher目前创业的首选,因为容易讲故事和融资,觉得未来会有embodied OpenAI。机器人反正最近OpenAI投了几家,也许是好的timing,bet对一个很强的团队,核心是能持续融资和吸引最顶尖的人才。

投资节奏属于正常,但估值都很贵。AI好的确定性高的deal并不多,今天还是GPU和LLM基建最重要。

腾讯新闻《潜望》:为什么我们作为碳基智能,一直在追求硅基智能上这么热衷?

李广密:这个很有意思,最终AGI期待的一个结果是,不管是Agent还是其他形态,能够把所有的计算资源和能源都用得有意义,思考和解决人类没想过的问题。

碳基肉身有局限,吞吐量有限,记忆长度短,读不了DNA/RNA,人也不能规模化复制,碳基和硅基是很好的互补。

未来十年硅基的AGI和地缘博弈,这两个可能是交叉的。

本文系转载,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文系转载前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
云直播
云直播(Cloud Streaming Services,CSS)为您提供极速、稳定、专业的云端直播处理服务,根据业务的不同直播场景需求,云直播提供了标准直播、快直播、云导播台三种服务,分别针对大规模实时观看、超低延时直播、便捷云端导播的场景,配合腾讯云视立方·直播 SDK,为您提供一站式的音视频直播解决方案。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档