首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

百川智能王小川:大模型创业100天,我确认找到了属于我的「无人区」

摘要

「以前没人说小川你适合做搜索,现在大家都说小川适合做大模型。」

4 月,王小川宣布下场,成立大模型公司「百川智能」。 6 月,百川智能发布 70 亿参数开源大模型,Baichuan-7B。

7 月,百川智能发布 130 亿参数开源大模型,Baichuan-13B。

两款模型在各种测评上都有不错的表现,也收获了国内外大量用户的认可。

「开源很简单,大家可以拿着自己用的,这不是你自己吹牛吹出来的。」

他动作很快,比大多数人想象得都快。就连他自己也很意外:下场动手开始做以后,进度会比预期快很多。

在由极客公园主办的 AGI Playground 大会上,王小川透露,百川智能的开源模型能力一定会超越 Llama 2。按照计划,之后百川智能将发布几百亿,千亿级闭源大模型。

几个月前,王小川要「做中国的 OpenAI」登上各种媒体的头条。

这是一句大众爱听的口号,但未必是一句准确的描述。

王小川究竟想做什么?他要怎么做?三个月的实践,取得阶段性成果之后,他对大模型时代的创业有哪些一手认知?

以下内容来自极客公园创始人 & 总裁张鹏与百川智能创始人 & CEO 王小川在 AGI Playground 大会上的访谈,经 Founder Park 编辑

开源

OpenAI 没做到的

张鹏:

大家可能最感兴趣的,还是你创业之后这段时间动作很快,发了两个模型:一个 7B,一个 13B,而且反馈都很好。

大家都很好奇,因为一开始都认为你要做一个中国的 OpenAI,但是看到你做了开源的东西,那开源是一个技术阶段,还是本身它就是未来你思考的新模型?

王小川:

开源,我们觉得是一个技术阶段,其实做中国的 OpenAI 并不代表着完全要复制它完整的路径。在硅谷跟 OpenAI 交流的时候,他们在理想上是走得非常远的,比如说他们现在做 GPT-4 的时候是需要 2 万多张卡做计算,国内都没见过这么大的规模。

他们很自豪地说他们在设计把 1000 万张 GPU 连在一块做计算模型。

1000 万张卡什么概念?英伟达一年的产量是 100 万张。1000 万张就完全是可以登月(moonshot)的这么一种计划。

另外,在怎么去做应用、做产品上,甚至做一些更广义的技术上,这可能是 OpenAI 的短板,或者是他们现在不是特别关注的事情。

所以在中国做 OpenAI 跟美国的生态环境会非常的不一样。

最近开源的 Llama 2 发 布之后,在国内引起一个狂潮,大家觉得它会重新改变格局,这是 OpenAI 没做到的地方。很遗憾这个不是 Google,而是 Facebook(Meta)做的,Google 还是继续缺席的位置。但国内的话我们就提前看到这件事情了,我们认为未来开源和闭源会有一个并行的状态。

张鹏:

开源和闭源会是并行的状态。

王小川:

并行就有点像现在既有苹果的系统,也有安卓的系统。甚至在更多的公司要参与进来的时候,光用闭源的 API 调用是不够的,也需要这个开源模型提供 80% 的服务,最后靠闭源来给大家提供服务剩下的 20% 会有大量开源的需求。而之前美国没有,中国更没有类似的模型。因此 Llama 一旦宣布的话,对美国是很大的震动,但中国也有热潮跟着在走。事实上,严肃的技术评测包括几种主流的像 SuperClue 的评测,以及一些大厂和公司的对比,Llama 和百川对比的话,明显我们现在在中文领域里面是远超 Llama 的品质。

在中国的开源模型领域,就像我们的手机行业一样,最早也是用美国的,后来就自己追上了。

张鹏:

你觉得 Llama 2 最近这么热,百川会比它们做得好?

王小川:

Llama 是有 Llama 1 和 2。

首先,我们今年在 6 月份发布了第一个 7B 参数的模型,7 月份发布 13B 参数的模型。在英文的指标里面,最重要的一个指标是 MMLU (Massive Multitask Language Understanding),这个关键指标我们的两个模型是优于 Llama(1)的,在中文里面大幅度领先。

我们知道 Llama 其实对中文的处理部分其实是不足的,跟 Llama(1)相比,百川的英文是能够部分对标,关键指标是超过的,然后中文是明显是做得更好,很多人在对 Llama 进行中文改造,但还是没有本土的百川好用。

Llama 2 发布之后,我们也能看到技术报告,里面大概有 9 个技术创新点,其中有 6 个在我们正在研发的模型里已经做到了。

跟国内其他模型相比,我们这边的思路是目前最接近的,有 6 个点我们已经做了,然后有 2 个我们没想到,有一个我们这是无效的,所以在跟 Llama2 对比的时候,我们在技术的思考里不是简单的抄袭借鉴,我们是有自己的思考的。我们认为在这个道路里面后面会有我们的机会。

今天我也呼吁,在国内大家在用的时候不要只想着国外很好,OpenAI 现在来讲离距离确实更远,年底能够达到 GPT-3.5 或者接近的水准需要时间,但在开源大模型里面我们现在已经很接近了,在中文领域现在就可以替代,也许未来还能超过 Llama,我觉得是可以做到的,我们应该有这样的自信。

张鹏:

所以你的下一个开源模型,你认为会比 Llama 2 更好?

王小川:

至少是在中文。在中文领域,现在已经是超越了。再往下是在全球市场的开源领域去发出中国的声音。

张鹏:

英文和中文都要达到比 Llama2 好,这件事对你是看得见、可实现的。

王小川:

我觉得有机会,在可预测未来是可能会发生的。

张鹏:

所以你的观点是:今天不能简单的说我们未来大模型就是走向 OpenAI——闭源的中心化的模型。开源实际上是具备着很大的可能性。所以也就意味着一方面在于实践技术,展示技术能力,但它也确实有可能蕴含着商业模式和价值。

同时,开源的基础之上,中国做一个全球最好的中文模型还是一个让人可以期待的事。

王小川:

总结得非常准确。

搜索的经验

是坏的惯性,还是好的资产?

张鹏:

之前很多投资人认为,用搞搜索的经验做大模型肯定成不了。经过这几个月的实践,你是否验证了你当初的与他们不同的判断?搜索的积累和能力对大模型有什么帮助? 王小川:

因为今天(AI 的)这个成就是 OpenAI 做到的,Google 没做到,所以投资人的第一个想法就是这个新的技术正好是搜索的反面。他们很难分清到底是技术还是组织管理的原因。

导致这种声音的原因,一个是不理解搜索技术和 AI 的关系,第二个是认为搜索背景的认知会带来负向的效果。

因为搜索公司主要就是百度和 Google,不太需要对外融资,也不会给投资人讲搜索是什么。尤其是上一波 AI 热潮更多是通过图像带起来的,大家对搜索里的 NLP 等技术内涵是陌生的。

从结果上来说,我们 6 月份发布了第一个模型。最早有竞争对手告诉投资人,百川最早第一个模型要用半年时间,其实我们只用了 1/3 时间就做到了,然后又发了第二个。而且不久的将来,我们会发布一个闭源大模型。

百川从第一天开始就是自研的,而且冷启动非常非常快。这背后的原因是什么呢?

今天我们知道高质量数据是大模型的基础,那什么公司对语言数据有广泛的理解呢?那其实搜索公司干 20 年,每天都在思考怎么找到这种高质量数据。比如说首先从 1 万亿个网页中找到 100 个高质量的网站,然后再做页面分析,包括信息抽取、去重、反垃圾,甚至按段落级别来提取内容。

这种工作,搜狗、百度和 Google 已经做了很久。

第二点,从人才储备来说,既要有算法能力,又要有以搜索能力为主的工程能力,这种人基本也在搜索公司。现在字节跳动做模型就是用的搜索的团队,百度的进度也非常快,包括沈向洋在做的模型也是 Bing 的 VP 过去做的。

做大模型还有一件事情就是评测。评测大模型好不好其实是一个痛苦的问题,包括推理的问题、精准问答的问题、创作的问题……有的变好,有的变差,怎么评价?所以这种评价体系也是搜索公司长期积累的一个能力,用评价来带动后续算法的迭代。

另外创业公司又比大厂的组织效率要高很多,有非常且灵活的决策体系,所有效率就会得到最大化的体现。

张鹏:

所以当年认为搜索干不好大模型的那个投资人,后来你跟他聊过吗?

王小川:

名字打上叉除名了,都不知道是谁了。这种只看商业不看技术的,还有特别喜欢美国回来创业的小鲜肉的,这些投资人就直接划出来不聊了。

老王说得对

「小创新靠大厂,大创新靠小厂」

张鹏:

你觉得创业者在未来这波技术变革中会有足够大的机会吗?还是说主体仍然由巨头把控?创业者该如何抓住属于自己的机会?

王小川:

王慧文虽然对技术没那么懂,但他有一句话我觉得说的特别对:小创新靠大厂,大创新靠小厂。

虽然大厂有很多人、钱、资源的优势,但组织壮大后反而会有很多很内部问题,组织效率收到了严重限制。

如果我们坚定认为 AGI 的到来,那么一定会爆发出巨大的新物种。这些事情对创业公司来说有巨大发挥作用的机会。这个从历史推演就能论证,所以只要有 AGI,未来就有新的机遇

中间的难点在哪呢?

OpenAI 是一个以研究导向为主,在现实世界落地产品的公司。你跟着它走,研究领域可以有非常耀眼的成就。但是今天怎么做应用,不管是 OpenAI 还是硅谷以技术驱动公司都还不是太擅长这个。我有自信中国在应用落地上比美国强很多

全世界都到了一个转折点,现在技术已经就位,这是第一个难点。应用和需求方面是第二个难点,这一块叫做 model service(模型服务)。所以现在的挑战是,第一,你有模型了吗?第二,有了模型就等于有了服务吗?

张鹏:

兜售 API 属于服务的范畴吗?

王小川:

我觉得不是。

就像你有了无人驾驶的技术,但你真的就能造辆车了吗?显然不是。其中还需要许多技术的融合。

现在美国对于应用层比较迷茫,中国现在的问题是模型能力不足。今天很多做模型的创业公司,也是把自己的视角局限在大模型上,对其它技术栈没那么了解。

讲个最简单的例子,做模型肯定会遇到幻觉问题,时效性问题。幻觉和时效性都是光靠大模型本身能解决的。有人用扩大参数,扩大到万亿,十万亿来解决幻觉;或者用强化学习。但其实最直接的做法就是把搜索和信息检索带进去。大模型和这些结合在一块,才能形成一个更完整的技术栈。

这个技术提出后,已经有点苗头了。比如现在有一个叫做向量数据库的东西,它其实就是搜索的变通,主要应用在 toB 里面。

搜索方面,在 2018 年有了 Transformer 技术后,已经具备了语义搜索的能力。大家可能听过倒排索引,就是把这种符号网络索引起来。

在 2018 年之后,不管是我们、百度还是字节的向量都已经转向了语义搜索,背后支持这种技术的是三个巨大的向量数据库。这些技术栈和大模型结合在一起,才能让大模型有更大的发展。大家可以看到,搜索的团队经验对于做模型是有优势的。

第二个方面,现在大模型技术逐渐实用化。然后在所谓的知识计算中,还需要加入向量数据库和搜索,才能形成更完整的技术和产品。在这个问题上,大家正在逐步形成共识。

今天来讲 ChatGPT 的流量,大家开始担心是否能够持续爆发。

因此大家还需要更多探索。

我们认为在娱乐行业,在人物角色扮演方面有广阔前景,但这件事情需要中国公司进入才能做得更好。

另外一件事是如何将大模型和搜索如何结合在一起,Perplexity AI 现在做得挺好,我们则处于被动的地位,美国有机会,投资人就会找中国的对照公司。如果这家公司,一没有大模型,只是在调用 API;二没有搜索技术,只能依赖 Google,Bing 这些公司的技术,这样并不理想

张鹏:

刚才你说,ChatGPT 这类的用户量在下滑,就是让大家感觉新范式未必能够一下子打穿。这是不是对创业者做应用的挑战很大?

因为根据你刚才所讲,创业者在一个技术不成熟的环境下,本身创业探索的代价就很大。而如果创业者只是拿别人的 API 做个应用范式的变化,其实没有特别亮眼。

王小川:

前两天 OpenAI 刚升级了 code interpreter,然后又升级了 custom instruction。对创业公司来说又形成了巨大的压力。

美国投资人也在担心,在焦虑其中还有没有机会创业公司能超过巨头,会不会做一半就被大公司取代了。

在中国的话,我觉得走大模型路线的还没有像 OpenAI 那样有一个占据顶端的公司出现。现在还处于「百模大战「的阶段。今天做大模型的公司有没有能力做应用,这件事中国比美国有很多看点。

追赶 GPT-4?

一味追求模型代际提升很危险

张鹏:

这也引发了一个问题,就是接下来中国谁会追到 GPT-3.5,甚至 GPT-4 的水平

也有另一种声音说 GPT-3 已经足够企业去解决一些垂直场景问题。

我感觉小川你们还是致力于去追 GPT-3.5,GPT-4。这个追的过程难不难?你们为什么说一定要追到 GPT-4 的程度?

王小川:

我觉得这是两个事情。

首先是技术的跨代进步,可能对后续产品生态产生碾压式的影响。无论从理想的角度来看,想象一个遥不可及的未来,就像战斗机的三代、四代、五代一样,在这其中每一代都可能发挥重要作用。所以在这个时候,大家应该争取在竞争激烈的领域中寻求优势。

但是在争夺优势的过程中,大家可能会面临新的困惑:到哪一代才能真正实现超级应用?GPT-3.5 在美国至今尚未形成超级应用,训练一次大约需要 5000 万人民币,这还不包括前期准备和实验之类的成本。GPT-4 训练一次可能需要 5 亿人民币。到 GPT-4.5 代,成本可能会达 5 亿美元。

因此,如果没有超级应用,单纯追求技术提升也是非常危险的。所以我们需要在这个领域同时追求第四代和第五代技术能力的提升,同时要有超级应用。否则,我们可能会突然面临两个方面的升级压力,这两者都需要同时升级才能取得成功。

张鹏:

所以每一波型的技术里都应该能够诞生有价值的应用。

王小川:

你刚才说的很对。

在 B 端里面 GPT- 3 基本就已经能用了,在 C 端没有能用的原因我认为还是时间太短。

加之大家把目光太过聚焦在 OpenAI 上,它不是一个产品公司,不是一个能做超级应用的公司

能做超级应用不仅需要技术追赶,也要对产品有一个足够的理解。这件事我觉得年底是水落石出的时候

「小川适合做大模型」

「做了 20 年搜索,没人说我适合做搜索」

张鹏:

大家有没有可能高估了 OpenAI?或者说我们认为 OpenAI 很难被超越的一点就是因为它有数据飞轮,你如何理解这个,数据飞轮是真实存在的吗?

王小川:

今年年初在提数据飞轮的事情,当时特别恐慌。用户的请求给了它,它知道用户要什么,然后就更好地去升级模型。

在目前看的话,这个问题并不严重。

像 Llama 2 推出之后,大家看到在微调阶段,数据要精而少,而不是精而多,现在大家开始逐步形成共识,技术的秘密不是在飞轮里面,还是时间的技术积累。

像 Claude 的公司 Anthropic 的技术实力也涨的很快,OpenAI 远远它用户多,这也证明了数据飞轮的概念被证伪了

张鹏:

或者说有可能它里边真正有价值的数据都体现在跟人对话的技巧上,我记得最早的时候,它的对话方式就挺「木讷」的,但现在就感觉更有人性。

王小川:

这个东西感觉都不多,更多还是在于它的数据集里面,不管在 Pre-training 阶段还是在微调阶段,怎么去搞优质的数据?如何去配比等,这是它的核心的能力。尤其是我听他们聊天说,一方面 GPT-4 在训练 GPT-3.5,让 3.5 更高效的工作,同时用 GPT-4 去生产 GPT-5 所需要的部分数据,在做迭代过程的优化。它的迭代在内部是使在线服务更好,同时生成未来的部分数据,我觉得这是是内部的一个飞轮

张鹏:

所以如果 从 Llama 的角度去看,通过开源也有可能能够去 deliver 一个不断在提升技术水平的模型。但如果要从 OpenAI 的这个视角,可能在某个阶段也需要有足够的用户和数据。

王小川:

开源的、闭源的,还有应用,事实上今天大家都还在铺开来做,跟现在美国西部一样还在扩张的阶段。

张鹏:

所以今天对于一个创业公司,比如像百川,就不会轻易的只是说我只配合了某一个方向,我要保持战略模糊也好,或者叫可能性的丰富也好,就这些维度可能都会下注。

王小川:

对。我这次创业比较有意思,很多人说小川你特别适合做大模型,我做了 20 年搜索,从来没一个人说过小川你特别适合做搜索。

在国内做搜索,比百度晚了 3 年,这种追赶是非常艰难的。而今天这个积累和经验放过来一看,前面都是没人的。原来想的很难,已经晚了好几年了,但今天在我看起来处处都是机会。因此只要我们有足够多的能力,我们处处都可以在里面试,也看看今天是否能够改变大家原搜狗的这种印象。

不要盲目崇拜

中美会有不同的 AI 故事

张鹏:

小川说的这点我还挺有感触的。你终于站到了一个无人区。

大模型这件事,可能很多人觉得要学习、追赶 OpenAI。但当你真干了这件事,才会真的找到距离和路径。

王小川:

对,不用那么崇拜。

我记得 2016 年 AlphaGo 之后,我当时提了两点,第一,如果(AI)能够预测下一帧视频,那就是 AGI 的到来。

但是说完之后就过了,你也没有能力去做,动力、能力、条件都没有。后来说如果机器掌握语言,那么强人工智能也会到来。现在其实已经开始验证。

所以我觉得我们自己有很多想法,并不是走在后面的。只是原来各种时机、条件不成熟。这就像,一个学霸说这件事已经可以解了,你这个学霸,也不是说一定要把作业给你抄对吧?

别人告诉你可解,甚至大的思路给你了,我觉得我们自己就会做了,不需要盯着别人的作业打小抄。

张鹏:

所以这里面你真正的乐趣不是实现和复刻了别人,而是在这个无人区里在探索出一些大家还没有抓到的东西。

王小川:

是的,我觉得这次有机会在部分领域做到领先。

张鹏:

是有这种可能性的,所以中国和美国,百川和 OpenAI,可能它并不是一样的故事。 王小川:

确实会不一样。中美本来就不是一种制度,一种体系、文化,所以最后长出来的,不管是技术问题还是应用问题,都会不一样。

主要工作:和同事聊天

百川智能刚刚突破 100 人

张鹏:

你平常的工作都怎么安排?你的时间怎么分配?很多人都说,算力重要、人才重要,但我觉得只有真正创业的人才知道什么东西最重要。所以我就想问问你时间花最多的地方在哪?

王小川:

我现在时间花最多的,是跟我们的同事聊天。

张鹏:

聊天?

王小川:

对,这聊天在过程当中的时候,其实是一个不断形成共识的过程,就是把大家的这种认知、养分、外面信息汇聚,使大家形成同一个大脑。

因为我们知道 Top-Down 可能会走偏。比如说这个 Google 为什么没做成?第一个 Google 本部做的时候有它惯性。数据拿不到,上了线之后成本提升,没有具体用户收益,所以有创业的窘境。

Google Brain 的话,它是 Button-Up 的。它的研究员很自由,什么都干,或者汇成一个力量,所以他们其实很多看到了大模型,但是没法集中一块做,力量是分散的。那 Deepmind 是自顶向下的,公司要求做什么,大家做什么。它做了 AlphaGo,AlphaZero,AlphaFold,现在开始走向了氢能源、核聚变、量子计算,但是离大部分已经远了。

在今天其实 Top-Down、Button-Up 做起来叫上下同欲,使大家从这种理想上到技术上、认知上充分地对齐,变成一个事儿。所以我认为跟大家更多日常的交流,会使这个大家变成一个大脑,这是我最重要的工作。

张鹏:

嗯,有意思。所以一个小的团队去发挥它最大的能量,反而是所有人能够同喜同悲、同欲同求。

王小川:

这很重要,今天也不讲组织管理了,就是大家变成像一个人做。百川现在是 100 人,昨天刚到 100 人。

信心的变化

百川的进度比想象中更快

张鹏:

过去几个月,投身大模型,你的热情没有变化,但是信心有变化吗?跟你一开始的预期相比,是更难了?还是符合你的预期?

王小川:

如果讲真话,发自内心的,我觉得比我想得更简单。

预期就是,一开始都知道很多(困难),国外好几年的积累,算力、服务器...... 但是当你和同事在一起工作的时候,当大家在共创的时候,我们实际的进度、节奏都比预期要快。

原来我们预计是 Q3 发一个 500 亿的模型,然后 Q4 发布一个 1750 亿的

但事实上,这些东西不会变,但过程中,应用的进展速度,模型开源的速度,都比预期快很多。

而且也更快地,今天我们可以开始说,不只是在国内做到最好,我在国际舞台上开源。

开源很简单,大家可以拿着自己用的,这不是你自己吹牛吹出来的。开完之后,我们有信心能在国际舞台上拿到非常好的位置。

张鹏:

所以跳到水里之前是不知道深浅的焦虑,真跳进去了,发现其实能踩到底了,就踏实了很多?这件事真的这么简单吗?

王小川:

分人。

我是一个做事还比较谨慎的,我当时还在看,然后我们的联创一脚把我踹进去,说开始干。然后我说好吧,宣布下场开始干。否则还可能更晚,才会觉得自己准备 ready 了。但一旦下场之后,会发现比自己想的时候,会跑得更快一些。

狂热之后

最近关注的技术进展

张鹏:

你最近在关注大模型的那些技术进展?有哪些 paper 是让你感到比较兴奋的东西? 王小川:

第一,光看论文,今天其实已经不重要的。

你看不完的。基础就那些东西。而且今天 OpenAI 已经不把好论文发出来了。发出来的都是信息量不大的论文,收获是有限的。

同时大家因为之前进入狂热(状态),我们叫「度日如年」,每天过得更(技术进步)一年似的。

张鹏:

度日如年是因为它跑得快。

王小川:

对,不是枯燥。每天都太多新鲜事了。大家神经已经刺激到了一个高点,有一点疲软的状态。

说回来,最近有几个技术进展,我觉得非常厉害的。

一个是,大概一周多前,OpenAI 推出了 code interpreter,这是重大的一个突破,但在国内好像没有形成新一轮的媒体狂潮。

之前的狂潮大家已经享受过了,这次的进度,code interpreter,我觉得是媒体没有当量地去正视它报道它。以及昨天的一个小升级,定制自己的 instruction。代表了它从模型 LLM,开始走向 Agents。

里面会描述说「我是谁,我有什么特点」,你这个大模型会扮演一个怎样的角色,有什么特点?形成这样一个关系,是从模型是不是 Agent(角度来看的)。这两个领域,是今天大家关注报道不够的。

创业的决定

终于等到「适合小川」的无人区

张鹏:

最后一个问题,你刚刚提到,你是被「踹」到这个创业的局里。我也知道你很早就是 AI 的狂热分子,从 AlphaGo 的时候就是。

最终下决心,成为一个 AGI 领域、大模型领域的创业者,老王(慧文)也好,中国这波浪潮也好,他们对你的决策产生了怎样的影响?经历了这样一个过程,你内心发生了怎样的变化?

王小川:

心路历程其实挺长的。

在搜狗的时候,到后期。第一,错失了推荐引擎,也跟腾讯做了战略结盟,在这种情况下,没有新的技术突破的话,发展上是非常受限的。当时把搜狗并给腾讯的时候,我在挑战一个更有意思的事,就是把生命变成数学模型。就像我们说,牛顿是把物理变成数学模型。

之前在极客公园的平台上,我都在讲向生命学习。

生命是什么?这是我思考了 20 年的一件事。

怎么把生命变成数学模型?这是我关心的。甚至在研究中医,怎么把生命变成数学模型,(后来)发现这条路不一定是能走通的。

怎么在科学范式里,对医学有新的突破,这是我特别感兴趣的事情。我读医学的论文比我读计算机的论文多得多,我读了上千篇医学论文。

21 年发生了什么事呢?21 年的时候大模型已经开始有一些机会。那时候我们做了百亿模型,来解决搜索变问答的问题。

其实之前做输入法,就已经在搞「预测下一个词想说什么」,然后怎么改写,搜索是变成问答。其实有摸到那个门,但是那时候技术是没有突破的。

所以你知道把生命变成数学模型,我是很感兴趣的,所以大模型这波到来之后,我第一想法不是做大模型,我想说,是不是今天可以在生命领域做个 Health ChatGPT?健康的 GPT,一个数字医生?

张鹏:

你在从应用的、解决问题的角度思考。

王小川:

对,在思考这个问题。然后又想,如果你今天做一个垂直模型,它可能会被大模型干掉。通用智能会干掉专有智能,对吧?

但是这种情况下,我们发现,如果只做一种 HealthGPT,或者只做一个数字医生,这是不够的。最后就说,还是要做大的模型。

(下场做大模型的决定)是转了这么一圈转回来的,并不是觉得之前自己有积累之类的。但是做大模型,发现其实(之前的积累)是挺相关的,比如语言相关的处理。

甚至极端一点说,ChatGPT 第三个把语言模型做成超级应用。前两个,一个搜索,一个输入法。

张鹏:

感觉你不把这个也干了,对不起之前干的那两个。

王小川:

对,所以发现之前的积累在今天确实用得上,这是之前没想到的。

因此我很感慨,老天对你很好,给了你一个机会。在搜索画句号的时候,还有一次机会,把以前的经验用来做一件原来做不到的事。

现在说,大家没人说过「小川适合做搜索」,但都说「百川适合做大模型」,对我来讲,是一件非常幸运的事。

张鹏:

这是你当初决定要做的原因。

现在几个月下来,大家可能会觉得这件事很难,OpenAI 都没能变成一个超级赚钱的公司,硅谷很多人都质疑它的商业模式。所以大模型对创业者会有这方面的压力,你感受到这个压力了吗?

王小川:

我都是很亢奋的。

因为以前都是在百度的阴影下工作,现在是无人区,这件事对我来讲正好是我想做的事,而不是说前面有个领导者在里面,然后你跟着追。对我来说,这是我喜欢的,一个新的探索。

张鹏:

特别感谢小川今天给我们做了走心的分享,也恭喜你终于迎来了属于你的无人区,希望在这里能看到更美的风景,掌声献给小川,加油!

  • 发表于:
  • 原文链接http://www.geekpark.net/news/322189
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券