大模型之战谷歌被逼“跳舞”：从“卷模型”到“卷应用” 巨头进入共舞时代

文章来源：企鹅号 - 腾讯新闻潜望

腾讯新闻《潜望》纪振宇 5月21日发自硅谷

按照惯例，每年的5月，微软和谷歌都先后举办开发者大会，这通常是两家科技巨头每年最大的对外公开活动。从去年起，大模型以及与此相关的内容成为开发者大会毫无意外的绝对主角，今年也不例外。但时间仅过去一年，大模型领域又出现了许多新的变化。

去年谷歌IO开发者大会，整体处于一种焦虑蔓延的状态中，彼时微软刚宣布与OpenAI的重大合作，高调宣称要逼“谷歌跳舞” ，一时间外界担忧谷歌雄霸多年的搜索市场将不保，谷歌在仓促中草草推出的大模型Palm却又接连出现事实性差错，全公司上下处于人心惶惶的境地。

但仅仅一年过去，谷歌逐渐站稳了阵脚，去年底推出新的大模型Gemini，将上下文处理能力撑到行业领先的100万，同时以原生多模态作为主打，宣布在该领域重新站稳了第一集团的位置。被外界担忧的搜索市场也没有受到多少的实质性威胁，搜索市场份额依然维持在90%以上。

微软在第一波凌厉攻势并没有取得明显效果的情况下，开始改变策略，继续稳扎稳打，一方面在业界广泛开展合作，另一方面在公司内部继续积极推进大模型以及与旗下应用的深度结合。

资本市场也给了这两家巨头积极的肯定，谷歌在过去一年股价上涨超过44%，市值站稳2万亿美元，微软同期上涨超过33%，市值超过3万亿美元，继续坐稳全球市值榜首宝座。

如果将过去一年称之为大模型元年，2024年可能是大模型相关应用真正落地的一年，在这个过程中，以谷歌、微软为代表的大公司依然占据了最有利的优势地位。焦虑感已经逐渐淡化，取而代之的是大公司继续巩固自身业务优势的同时，用AI 全面巩固优化生态的坚定决心。

上周结束的谷歌IO开发者大会，本周刚进行的微软Build开发者大会都向外界证明了这一点。相比去年将重点的精力和资源都放在大模型能力上，对外展示在人工智能方面的资源储备和能力，今年两家巨头则不再局限于大模型能力的继续扩张。

无论是以OpenAI为代表的头部闭源大模型，还是谷歌、Meta为代表的开源大模型，基础能力均到达了阶段性的平台期，模型能力已经远远超过目前大多数应用场景所需要的能力，去年一年大模型刷榜，比拼各项基础能力的时代已经过去。如何将模型做小，在更有效率、更节约资源和算力的前提下，解决实际应用的问题，成为了进入2024年后整个业界转向的新的方向。

谷歌和微软对旗下应用进行全面AI化

在上周的谷歌IO开发者大会上，谷歌展示了方方面面的升级和强化，可以说面面俱到。

首先谷歌旗下的大模型Gemini 1.5 Pro将上下文窗口长度从之前的100万进一步扩展至200万，谷歌首席执行官Pichai称这是目前市面上处理上下文长度规模最大的基础大模型，此外，谷歌还发布了轻量版的Gemini flash，处理上下文窗口长度也达到100万。另外让人印象深刻的多模态能力的展示，谷歌称为Project Astra的项目，目标是人工智能助手的打造，在演示中，用户只需要拿着手机，打开摄像头随意获取身处的环境画面，AI能够实时解读，与用户进行对话，并记忆物品位置等，但由于前一天OpenAI已经演示了实时多模态能力，显得谷歌的演示不再惊艳。

其次，对于谷歌来说，在生成式人工智能时代，一大重要策略是将这些底层的人工智能能力，赋予旗下众多的产品，无论是最核心的谷歌搜索、还是用户量庞大的谷歌邮件、谷歌地图、以及生态庞大的移动智能手机系统安卓，谷歌都试图将Gemini大模型的能力注入到这些产品中。例如谷歌图片，在运用Gemini对话理解能力后，用户可以更方便地在海量照片库中寻找到自己需要的那张照片，在谷歌邮件应用中，通过与人工智能的自然语言交互，能够找到用户最需要的信息，谷歌在当天发布的AI Overview，则是通过Gemini大模型的底层能力，将搜索结果通过AI进行总结，给用户呈现更直观的结果，而无需再通过点击特定的网页去获取信息。还有融合在原生安卓中的circle to search功能，也是利用了底层AI能力，通过对图片的智能识别，为用户提供更多有用的信息。

除了软件层面，谷歌也在硬件层面为接下来的大举人工智能转型做足准备，当天发布会上谷歌还发布了第六代TPU芯片Trillium，谷歌称该芯片的处理速度是之前的5倍。

在微软本周进行的Build开发者大会上，基本上也同样展示了大公司的资源优势。微软在开发者大会正式开始前一天先发布了最新的微软称之为AI与PC结合的硬件产品Surface Pro，将目前最新的大模型能力融入到Windows系统中，令人印象深刻的功能包括Recall，即大模型能够帮助用户记忆过往的所有浏览记录，帮助用户未来寻找相关的信息，在演示中，大模型助手已经成为日常工作生活中无处不在的智能助手。

在第二天的开发者大会上，微软则更多展示了对开发者提供的人工智能工具，继去年推出的Github copilot后，今年Copilot能力进一步进化，程序员能够通过语音与Copilot实时对话来解决实际工作中的问题，成为一个真正的实时在线和反馈的“助手”，这过程中微软也展现了底层大模型的多模态能力。

在当天的发布会上，微软发布了42亿参数规模的Phi3 Vision开源模型，上下文长度达到12.8万，将文字和图像识别能力结合到一起。与一味追求模型的大而全不同，微软的开源模型Phi3则专注于端侧能力，强调模型的小而快。

谷歌和微软各自巩固优势地位井水不犯河水

相比去年针尖对麦芒的比拼，今年谷歌和微软并没有展现出直取对方要害的凶猛，而是选择在各自的优势领域进一步巩固生态地位。

谷歌公布的所有AI化升级，全部是对旗下应用和生态，例如谷歌的搜索、Gmail应用、谷歌照片以及安卓系统等，重点是将大语言模型能力注入到旗下生态的各个角落。微软实际上也展现了同样的思路，在开发者大会前夕发布的Copilot+PC，实际上就是将Windows系统进行AI化变革，接下来的一系列更新和发布，也都是围绕着微软的PC系统Windows做文章，无论是内签到系统中的Recall新功能，还是在工作和生活场景中都无处不在Copilot，都是基于这样的思路。

不难看出，经过去年一年所谓的争锋相对的比拼，谷歌和微软各自发现依然无法撼动对方在各自优势领域的地位，如今都选择了固守自己的城池，用AI来进一步巩固旗下生态和产品能力。

从过去一年这两家科技巨头在资本市场中的表现也可见一斑，微软和谷歌依然身处科技领域第一集团，其中微软股价一年来上涨超过33%，市值站稳3万亿美元，是全球第一大市值上市公司，谷歌股价更是上涨超过44%，市值站稳2万亿美元，由此可见，至少在投资者眼中，这两家公司的业务基本面在中长期并没有产生显著动摇，核心业务依然稳固，在人工智能的加持下，未来依然有增长的潜力和空间。

去年纳德拉在高调公布和OpenAI合作后接受采访时所说的那句“要让谷歌跳舞”言犹在耳，一年时间过去，在大公司的积极参与和“互卷”之下，行业确实仍在发生着飞速的变革。

从“卷大模型”到“卷应用”，头部大公司依然遥遥领先，他们有着成熟的商业模式和难以撼动的生态，将创业公司远远甩在身后，无论是大模型创业还是相关应用创业，由于头部公司的“大象起舞”，留给创业者的机会和空间依然十分有限，这大概就是与大模型创业相关的这一轮热潮的现实。

发表于: 2024-05-222024-05-22 09:27:12
原文链接：https://page.om.qq.com/page/OMVYNXh0WpUoQOuYBJBIefQA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

大模型之战谷歌被逼“跳舞”：从“卷模型”到“卷应用” 巨头进入共舞时代

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐