文章/答案/技术大牛

发布

谷歌最强模型Gemini 来了！真正多模态，倾注所有资源，支持中文，GPT4不再独特了

文章来源：企鹅号 - 硅星人Pro

万众瞩目、被业界认为最有可能打败GPT-4的谷歌最强AI大模型终于亮相了！

美西时间12月6日，谷歌首席执行官Sundar Pichai和DeepMind负责人Demis Hassabis共同在官网宣布Gemini 1.0正式上线。

Gemini（双子座）由Google Research和DeepMind等多个Alphabet团队共同打造。作为一款新型的强大多模态人工智能模型，它可以归纳、理解、操作以及组合不同类型的信息。不仅能够处理文本，图像、视频和音频，还可以完成复杂的数学、物理等科学领域任务，并能理解和生成各种编程语言的高质量代码。

Pichai将Gemini 形容为“我们迄今为止规模最大、能力最强的AI模型”，并表示它在许多领先的基准测试中都展现出最先进的性能。“第一代 Gemini 1.0 针对不同尺寸进行了优化，分别是：Ultra、Pro 和 Nano。这些是进入 Gemini 时代的第一个模型，也是我们今年早些时候成立 Google DeepMind 时的愿景的首次实现。”

在今年5月的Google I/O大会上，Pichai就剧透谷歌正在开发Gemini的消息。它被描述为“下一代多模态智能网络”，为 API集成而设计，据传拥有像 GPT-4 一样的万亿参数，算力却是GPT-4 的5倍，能够执行更复杂多样的任务。

为此，谷歌还将自己的两个最强人工智能实验室：谷歌大脑（Google Brain）和 DeepMind合并，由原DeepMind首席执行官Demis Hassabis带队，投入数亿美元潜心研发Gemini。

甚至连已经辞职四年、云淡风轻地做公益、搞飞艇的谷歌联合创始人谢尔盖·布林也重新回归，亲自坐镇硅谷山景城办公室参与 Gemini决策，加入了这场LLM大混战。

可就在上周， The Information援引知情人士消息称，Pichai近期默默取消了本该在加利福尼亚、纽约和华盛顿举行的一系列Gemini公开亮相活动，原因是发现它“处理某些非英语查询时不可靠”，给产品面世过程蒙上一层灰色。

也许是为了巩固市场信心，今天一早，Gemini 1.0忽然隆重登场，强势出现在大众的视野中，迅速占据各大科技媒体头版。

那么这个谷歌举全军之力押注的最强人工智能大模型，到底怎么样？

三个版本，灵活部署

DeepMind负责人Hassabis称Gemini是他们最灵活的模型，能够在从数据中心到移动设备的各种设备上高效运行。

为了实现这种可扩展性，Gemini 1.0设计了三个不同功能和尺寸版本：

Gemini Nano — 端侧设备上最高效的模型。专为智能手机设计，可以在没有连接外部服务器的情况下执行高效的 AI 处理任务。现已集成入Pixel 8 Pro，可以支持录音应用中的“总结文本”功能，Gboard “智能回复”功能。从 WhatsApp 开始，明年还将扩展到更多应用。

Gemini Pro — 运行在谷歌数据中心，适用于各种任务的最佳模型。从今天起为最新版本的AI聊天机器人 Bard 提供支持。它能够快速响应并理解复杂查询，是 Bard推出以来的最大升级。目前为170 多个国家和地区提供英语服务，计划未来几个月内支持新的语言和地区，并应用于搜索、广告、Chrome 和 Duet AI等更多谷歌产品。

Gemini Ultra —规模最大且功能最强大的模型，专用于高度复杂的任务，会在完成当前测试阶段后的明年初向开发者和企业客户提供。届时还会推出基于Gemini Ultra的Bard Advanced更新版本。

在模型架构方面，Gemini依然使用Transformer架构，采用了高效的注意力机制，支持32k的上下文长度。

跑赢多项GPT-4先进性能

谷歌自信表示，在对 Gemini 模型进行严格测试和性能评估后，从自然图像、音频和视频理解到数学推理，在被大型语言模型研究和开发中广泛使用的 32 项学术基准中，Gemini Ultra 的性能有 30 项都超越了目前ChatGPT 代表的最先进水平。发布Gemini前，谷歌对它进行了一系列以标准行业指标评估的测试。

大规模多任务语言理解（MMLU）测试中，Gemini Ultra得分率为90.0%，高于GPT-4的86.4%，成为首个超越人类专家表现的模型。MMLU 测试涵盖了包括数学、物理、历史、法律、医学和伦理在内的57个科目，旨在评估模型在全球知识领域的理解和问题解决能力。

在Reasoning（推理）、Math（数学）、Code（编码）三大块能力测试中，除HellaSwag（日常任务常识推理）以87.8%落后于GPT-4 的95.3%外，其它包括“多步推理挑战性任务”、“”代数/几何/预微积分等挑战性数学问题“、“Python代码生成”等多项测试都取得了比GPT-4更高的得分率。

多模态能力上，Gemini Ultra在新的MMMU基准测试中获得59.4%的SOTA分数，超过了OpenAI多模态版本GPT-4V的56.8%。这项基准测试跨越了多个不同的领域，需要精密推理多种任务。

在图像基准测试中，即使没有采用对象字符识别（OCR）系统辅助，仅通过分析像素信息，Gemini Ultra的表现还是超过了以往所有模型。音频测试方面，Gemini的自动语音识别和自动语音翻译分数均高于接入GPT-4的Whisper系统。

Hassabis表示，这凸显出了Gemini原生多模态的优越性。到目前为止，创建多模态模型的通常做法是先独立训练不同模态的单独组件，再把它们拼接起来，试图模拟出一些功能。

这样的模型虽然有时可以有效执行描述图片等特定任务，但在概念性更强、更复杂的推理方面，它们往往表现不佳。

而Gemini起初就是以原生多模态的方式设计，从一开始就在不同模态上使用由 Google 设计的 TPUs v4 和 v5e芯片接受预训练。接着用更多额外的多模态数据对它进行不断微调，以提升效能。

这种方法使得Gemini在最初阶段就能更自然地理解和推理各种类型的输入内容，在几乎所有领域的能力都达到了前所未有的先进水平。

下一代模型能力大升级

首先，Gemini具有复杂的多模态推理能力，可以帮助理解复杂的书面和视觉信息，在海量的数据中发掘难以辨别的知识内容。

例如，通过自然语言prompt指示它过滤不相关论文，或通过阅读提取关键数据。只需一个午饭休息时间，Gemini就可以帮你从20万篇论文中提取250篇文献要点，进一步将数据转化为任何需要的图表形式。这将大大有助于在科学、金融等多个领域以数字化速度实现创新突破。

经过训练的Gemini显然还可以同时识别并理解文本、图像、音频数据，更好地理解具有细微差别的信息，回答与复杂主题相关的问题。这就让它尤其擅长解释数学和物理等科目推理。在示例中，工作人员展示了Gemini可以检查手写物理错题，并解释正确做法。

为了更直观显示Gemini的多模态能力，劈柴哥在X发布了一段视频，表示“理解Gemini潜在惊人能力的最佳方式就是看看它们的实际应用”。

视频中，Gemini根据指示教工作人员“鸭子”的普通话发音，还解释了汉语声调。

工作人员还给Gemini做了一个仅用中文提示互动的演示。通过询问一张图片中的室内光线，用中要求Gemini给出公寓朝向。Gemini用中文回答猜测房间朝南。又圈出照片中一株植物，询问它需要什么样的照明，gemini接着解释了植物种类和光照需求。整个过程母语般流畅，可见Gemini在多语言环境下表现出众，完全也不亚于GPT-4。

此外， Gemini 还可以理解、解释和生成世界上最流行的编程语言（如 Python、Java、C++ 和 Go）的高质量代码。实现跨语言工作并对处理复杂信息，这些能力使其成为世界领先的编码基础模型之一，协助程序员使用功能强大的 AI 模型作为协作工具设计应用程序。

对于开发人员来说，从 12 月 13 日开始，就可以通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 获取 Gemini Pro。Android 开发者还可以通过 AICore 使用端侧任务最高效的模型 Gemini Nano。

谷歌能否迎头赶上？

回想谷歌一路的大模型发展之路，与OpenAI“王炸“不断、极速更新，微软将GPT各项AI功能整合进核心产品铺天盖地推向客户相比，总显得慢人一步。今年2月发布聊天机器人Bard时更是出师不利，以一个事实错误让市值一夜蒸发1000亿美元；对标微软Copilot的Duet AI工作套件，市场反响不愠不火，云服务的财报表现也败给了微软。

特别是经历过Brain与DeepMind团队重组内耗、高级人才纷纷向OpenAI流失后，谷歌的AI之战打的更是精疲力竭。

不过，这毕竟是贡献出Transformer开山巨作《Attention is all you need》论文和里程碑式人工智能程序AlphaGo、启发后续包括ChatGPT在内许多大模型发展的AI先驱之师。无论从技术基因、训练数据、资金和基建来说，都本该具备数一数二的实力。

这次Gemini的发布被谷歌视为十年来最关键的技术创新。它能否让谷歌重整旗鼓，击败OpenAI，重登大模型赛场王座？

明年Genmini Ultra问世后，AI竞赛格局是否会被重塑？

以及，新的Google Bard大家都试用了没，感觉如何？

欢迎留言分享，或进群和我们一起探讨！

欢迎加入这个星球，见证硅基时代发展

点个“在看”，再走吧

发表于: 2023-12-072023-12-07 11:50:06
原文链接：https://page.om.qq.com/page/OZLVAoLZSRNaXDspkUT2EUaQ0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

谷歌最强模型Gemini 来了！真正多模态，倾注所有资源，支持中文，GPT4不再独特了

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐