Gemini Pro 1.5对外开放使用，最高支持1000万上下文

德顺

发布于 2024-03-29 12:34:12

3140

发布于 2024-03-29 12:34:12

2023年12月，Google发布了Gemini系列大模型，包含3个不同参数规模的版本。其中，Gemini Ultra号称在MMLU评测上超过了GPT-4，并且在月初也将Bard更名为Gemini，开放了Gemini Ultra的付费使用。

2024年2月16日，Google的CEO劈柴哥宣布发布了Gemini 1.5 Pro，这意味着仅仅一个半月，Gemini有了重大更新。它能够处理和分析包括多篇长文档、数小时视频和音频在内的上亿字符信息，实现细致入微的信息检索和推理。

近日谷歌 DeepMind 和谷歌研究院首席科学家公布的 Gemini Pro的官方线上体验地址：aistudio.google.com，感兴趣的可以试试。

Gemini Pro 1.5 在功能和易用性方面都进行了全面升级，将为您的创作之路提供更强大的助力。

Gemini Pro 1.5 带来了哪些新变化？

超长上下文处理能力：Gemini 1.5 Pro 能够处理至少 1000 万个 token 的数据，远超目前的模型如 Claude 2.1 和 GPT-4 Turbo。

多模态处理：它不仅在文本处理方面表现出色，还能同时处理音频、视觉和代码输入。

性能优越：在数学、科学、逻辑推理、多语言处理和编程等方面取得了显著进步。

模型架构：Gemini 1.5 Pro 是基于 Transformer 的稀疏混合专家（MoE）模型。通过学习到的路由机制，它将输入指派给模型参数的一个子集进行处理，从而在不增加参数数量的情况下扩大总参数量。此外，Gemini 1.5 Pro 引入了一系列重大的架构更新，使得模型能够理解长达 1000 万个 token 的输入。

训练基础设施与数据集：Gemini 1.5 Pro 的训练是在多个装配了 Google TPUv4 加速器的 4096 芯片集群上进行的。预训练数据集涵盖了广泛的领域，包括网络文档、编程代码以及图像、音频和视频内容。

长上下文评估：Gemini 1.5 Pro 在处理百万级 token 的能力开启了以前不可能的实际应用。它能够处理几乎一天的音频记录、超过《战争与和平》这样的 1440 页书籍十倍的内容，或者以每秒一帧的速度播放的三小时视频。此外，它还能够根据手绘草图定位著名场景。

Gemini 1.5 Pro 在多模态处理和超长上下文理解方面取得了显著的进步，为信息检索和推理领域带来了新的可能性。虽然目前仅提供给部分开发者和企业用户使用，但我们期待它在未来的应用中发挥更大的作用。

本文参与腾讯云自媒体分享计划，分享自作者个人站点/博客。

如有侵权请联系 cloudcommunity@tencent.com 删除

音频