文章/答案/技术大牛

发布

谷歌深夜放大招！发最强大模型Gemini，能否打败GPT4？

文章来源：企鹅号 - 探我元宇宙

“沉寂”已久的谷歌终于放大招了。

美国当地时间12月6日，谷歌发布多模态大模型Gemini。谷歌DeepMind直接宣布，Gemini是“谷歌最大、最强的人工智能模型”。

在过去的一年里，基于大模型的聊天机器人单月访问量已经超过 20 亿，其中 ChatGPT 遥遥领先，Google Bard 虽然排在第二，但和几个竞品一起归为「其他」更为合适。

因此，Gemini 早已被寄予了赶超 ChatGPT 的厚望，无论成败，它就是 Google 过去对 AI 大模型孤注一掷的成果。

三大版本、五种模态

多模态性能全面超越GPT-4V

目前，Gemini 1.0 提供了三个不同的尺寸版本，分别如下：

Gemini Ultra：规模最大、能力最强，用于处理高度复杂的任务；

Gemini Pro：在各种任务上扩展的最佳模型；

Gemini Nano：用于端侧（on-device）任务的最高效模型。

以前，多模态大模型就是将纯文本、纯视觉和纯音频模型拼接在一起，就像OpenAI的GPT-4、DALL·E和Whisper那样。

虽然在某些任务（比如图像描述）上表现良好，但在处理需要更深层次概念理解和复杂推理的任务时，它们的表现往往不尽人意。

而谷歌的Gemini模型从一开始就在不同模态上进行预训练，再通过使用额外的多模态数据进行微调，进一步提升了模型的有效性。

随后，研究人员又用额外的多模态数据进行了微调，进一步提升了模型的有效性。最终，实现了「无缝」地理解和推理各种模态的输入内容。

从结果上来看，Gemini的性能要远远优于现有的多模态模型，而且它的功能几乎在每个领域都是SOTA级别的。

而这个最大、最有能力的模型，也意味着Gemini可以用和人类一样的方式理解我们周围的世界，并且吸收任何类型的输入和输出——

作为一个从头开始构建的多模态大模型，Gemini可以同时识别和理解文本、图像、音频、视频和代码五种信息。

这意味着用户可以自然地交错输入：说几句话，添加图像、文本，或是短视频。同样，模型也会自然地交错文本和图像作为输出。

当你随手画个鸭子，从曲线到鸭子成型，Gemini 都可以精准识别。给鸭子画条波浪线，它能理解你的言外之意，精准地指出鸭子在水中游泳的场景答案。

同时它还能人性化地模仿鸭子的叫声，即使是用流利的普通话说出鸭子的叫法也不在话下。

闲着无聊，也可以和 Gemini 玩个游戏，你的手指指向哪个区域，Gemini 就能说出那个国家及其代表性的事物。

三仙归洞，猜猜纸球在哪个杯子下面，手速再快，也躲不过 Gemini 的「眼睛」。

Google DeepMind首席执行官兼联合创始人Demis Hassabis表示，谷歌一直对非常通用的系统感兴趣。

而这里最关键的，就是如何混合所有这些模式，如何从任意数量的输入和感官中收集尽可能多的数据，然后给出同样多样化的响应。DeepMind和谷歌大脑合并后，果然拿出了真东西。

之所以命名为Gemini，就是因为谷歌两大AI实验室的合体，另外也一个解释是参考了美国宇航局的Gemini项目，后者为阿波罗登月计划铺平了道路。

‍

多模态Gemini

GPT-4

虽然没有正式公布，但根据内部消息，Gemini有万亿参数，训练所用的算力甚至达到GPT-4的五倍。

既然是被拿来硬刚GPT-4的模型，Gemini当然少不了经历最严格的测试。

谷歌在多种任务上评估了两种模型的性能，惊喜地发现：从自然图像、音频、视频理解到数学推理，Gemini Ultra在32个常用的学术基准的30个上，已经超越GPT-4！

而在MMLU（大规模多任务语言理解）测试中，Gemini Ultra以90.0%的高分，首次超过了人类专家。

Gemini Ultra在大模型研发被广泛使用的32个学术基准测试集中，在其中30个测试集的性能超过此前SOTA结果。

其中，在多选问题、数学问题、Python代码任务、阅读等方面，Gemini的性能都超过了此前最先进的水平。

谷歌称，他们对MMLU采用了新的基准方法，使Gemini能够利用推理能力在回答难题之前进行更仔细的思考，相比仅仅根据问题的第一印象作答，Gemini的表现有显著改进。

在新的MMMU基准测试中，Gemini Ultra也取得了59.4%的高分，这一测试包括了跨越不同领域的多模态任务，这些任务需要深入的推理过程。

图像基准测试中，Gemini Ultra的表现也超过了之前的领先模型，而且，这一成就是在没有OCR系统帮助的情况下实现的！

种种测试表明，Gemini在多模态处理上表现出了强大的能力，并且在更复杂的推理上也有着极大潜力。

Gemini Ultra在多个编码基准测试中表现出色，包括HumanEval和Natural2Code。

其中仅Gemini仅在HellaSWAG数据集上的测试逊色于GPT-4。

HellaSWAG数据集主要用于研究扎根的常识推理能力，但是一位NLP领域的研究专家向「甲子光年」表示："这并不能说明GPT4的常识推理性能更好，因为不能排除ChatGPT的模型在HellaSWAG数据集上训练过。"

对谷歌来说同样重要的是，Gemini显然是一个效率更高、更可靠、可扩展的模型。

它是在谷歌自己的张量处理单元上训练的，比谷歌以前的模型（如PaLM）运行起来更快、更便宜。

开发人员使用了谷歌内部研发的张量处理单元TPU v4和v5e，在AI优化的基础设施上对Gemini 1.0进行了大规模的训练。

而可靠、可扩展的训练模型和最高效的服务模型，就是谷歌做出Gemini的重要目标。

在TPU上，Gemini的运行速度明显快于早期规模较小、能力较弱的模型。这些定制设计的AI加速器是谷歌大模型产品的核心。

要知道，这些产品为搜索、YouTube、Gmail、谷歌地图、Google Play和Android等数十亿用户提供服务。

它们还帮助了世界各地的科技公司经济、高效地训练大模型。

除了Gemini，谷歌在今天还发布了迄今为止最强大、最高效，并且可扩展的TPU系统——Cloud TPU v5p，专为训练尖端的AI模型而设计。

新一代TPU将加速Gemini的发展，帮助开发人员和企业客户更快地训练大规模生成式AI模型，开发出新产品和新功能。

谷歌凭Gemini追赶

微软和OpenAI步伐

不久前，微软刚刚宣布了旗下AI助手Copilot重大升级，将接入OpenAI的最新模型GPT-4 Turbo。

正当我们感慨，留给谷歌的时间已经不多了的时候，谷歌突然亮出底牌，甩出Gemini全家桶与之对抗。

虽然目前仅开放了Gemini Pro和Nano，但Gemini Ultra在测评基准上取得的成绩已十分亮眼，尤其是代码生成能力方面。

这无疑是在OpenAI陷入内部混乱的时候给了它重重一击。

Gemini是否会改变世界？最好的情况是，它能帮谷歌在生成式AI竞赛中赶上OpenAI。

但劈柴、Hassabis等人似乎都认为，这是谷歌真正伟大的开始。

发布的技术报告，没有透露架构细节、模型参数或训练数据集。

艾伦人工智能研究所前CEO Oren Etzioni说：“没有理由怀疑Gemini在这些基准上比GPT-4更好，但没准GPT-5会比Gemini做得更好。”

打造像Gemini这样的巨量模型，可能需要花费数亿美元，但对于在通过云提供AI占据主导地位的公司来说，最终的回报可能是数十亿甚至数万亿美元。

这是一场不能失败，必须打赢的战争。

发表于: 2023-12-082023-12-08 17:53:22
原文链接：https://page.om.qq.com/page/OyX2PXJ0BmWmCy9rpSlezjnQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

谷歌深夜放大招！发最强大模型Gemini，能否打败GPT4？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐