谷歌发布多模态大模型Gemini，性能超GPT-4！TPU v5p芯片性能提升2.8倍！

芯智讯

发布于 2023-12-12 14:54:03

6990

文章被收录于专栏：芯智讯芯智讯

12月7日凌晨，谷歌CEO桑达尔・皮查伊和Deepmind CEO戴密斯·哈萨比斯在谷歌官网联名发文，宣布最新多模态大模型Gemini 1.0（双子星）版本正式上线，其性能有望超过OpenAI GPT-4 模型。与此同时，谷歌还推出了该公司“最强大”的可扩展且灵活的人工智能加速器Cloud TPU v5p 。

多模态大模型Gemini

Gemini号称是目前最强大、最通用的模型，第一版Gemini 1.0能够理解和操作包括文字、图象、音频、视频、代码在内不同类型信息。

Gemini原生设计成多模态模型，一开始就在不同模态上预训练，接着通过额外的多模态数据进行微调、提升性能。目前，Gemini 1.0所受的训练是同时识别和理解文字、图象、音频、视频、代码等不同类型信息，并可回答涉及复杂主题的问题，这也让Gemini在解释、推理如数学和物理这样复杂的问题时表现出色。

不只如此，Gemini 1.0能够理解和解释世界上常用的程序语言如Python、Java、C++和Go，并且产生高品质的代码。值得一提的是，Google DeepMind 2年前推出AI代码生成系统AlphaCode，现在通过一个专门版本的Gemini，建立更进阶的AlphaCode 2，不仅擅长程序设计，还能处理与数学、理论计算机科学相关的竞技程序设计问题。

Google DeepMind团队使用Google自行研发、用于加速机器学习的TPU v4和v5e（Tensor Processing Unit），有规模地训练Gemini 1.0。依照模型大小有Ultra、Pro、Nano三种。

其中中端型号的Gemini Pro能够击败GPT-3.5，可扩展多种任务；Gemini Nano用于特定任务和移动设备。

而Gemini Ultra则是规模最大、功能最强大的模型，专为高度复杂任务所设计，Gemini Nano则是处理装置上任务最有效率的模型。

Google DeepMind团队不断对Gemini模型进行严格测试，从理解自然图象、音频、视频，再到数学推理，其中发现Gemini Ultra在大型语言模型研究和开发广泛采用的32项学术基准测试中，有30个取得领先成绩。

其中Gemini Ultra以90%的高得分成为第一个在MMLU（massive multitask language understanding，大规模多任务语言理解）测试里超越人类专家的模型，而在新的MMMU基准测试里也得到59.4%领先分数，两项测试皆超越OpenAI所开发的GPT-4模型。

截至目前Google所有AI模型中，Gemini在偏误、数据毒性（toxicity）等方面都接受最全面的安全性评价。在网络攻击、说服能力、自主性等可能存在风险的领域，Google DeepMind团队都进行最新研究，也运用Google Research的对抗测试技巧，在部署Gemini前率先找出关键的安全问题。

Google将在多项产品中导入Gemini，包括软件方面的Bard、以及有关硬件Pixel 8 Pro。从12月13日起，开发者和企业客户可以透过Google AI Studio或Google Cloud Vertex AI的Gemini API使用Gemini Pro。Android开发者也能透过AICore，在开发作业中运用Gemini Nano。

在ChatGPT推出后Google内部宣布「红色警戒」，从那时起被认为在AI竞赛急起直追。Gemini可说是Google多年来一直苦心建立的模型，也被外界视为能一举挑战OpenAI的关键利器。接下来我们将在越来越多Google产品看见Gemini身影，及其驱动的强大功能。

TPU v5p性能提升2.8倍

在Gemini发布的同时，Google还推出了全新的面向云端AI加速的TPU v5p ，这也是Google 迄今为止功能最强大且最具成本效益的 TPU（云张量处理单元）。

据介绍，每个 TPU v5p Pod 由多达 8,960 个芯片组成，使用最高带宽的芯片间连接（每芯片 4,800 Gbps）进行互连，确保快速传输速度和最佳性能。

在AI性能方面，TPU v5p能够提供459 teraFLOPS（每秒可执行459万亿次浮点运算）的bfloat16（16位浮点数格式）性能或918 teraOPS（每秒可执行918万亿次整数运算）的Int8（执行8位整数）性能，支持95GB的高带宽内存，能够以2.76 TB/s的速度传输数据。

与TPU v4相比，新发布的TPU v5p具有两倍的FLOPS（每秒浮点运算）和三倍的高内存带宽提升，这在人工智能领域是令人惊叹的。

此外，在模型训练方面，TPU v5p 在 LLM（大语言模型）训练速度上显示出 2.8 倍的代际提升，即使相比TPU v5e也有约50%的提升。Google还挤出更多的计算能力，因为 TPU v5p“就每个 Pod 的总可用 FLOP 而言，可扩展性比 TPU v4 高 4 倍”。

总结来说，TPU v5p与 TPU v4 相比：

浮点运算次数增加了 2 倍（459 TFLOPs Bf16 / 918 TOPs INT8）
内存容量比 TPU v4 (95 GB HBM) 高出 3 倍
LLM 培训速度提高 2.8 倍
嵌入密集模型训练速度提高 1.9 倍
带宽增加 2.25 倍（2765 GB/秒 vs 1228 GB/秒）
芯片间互连带宽是原来的 2 倍（4800 Gbps 与 2400 Gbps）

谷歌已经认识到在拥有最好的硬件和软件资源方面取得了明显的成功，这就是该公司拥有人工智能超级计算机的原因，它是一组旨在协作工作以实现现代人工智能工作负载的元素。谷歌集成了性能优化计算、最佳存储和液体冷却等功能，以充分利用巨大的功能，输出的性能确实是行业领先。

在软件方面，Google已经加强了使用开放软件来调整其人工智能工作负载，以确保其硬件的最佳性能。

以下是AI Hypercomputer新增软件资源的概要：

对流行的 ML 框架（例如 JAX、TensorFlow 和 PyTorch）的广泛支持开箱即用。JAX 和 PyTorch 均由 OpenXLA 编译器提供支持，用于构建复杂的 LLM。XLA 充当基础骨干，支持创建复杂的多层模型（使用 PyTorch/XLA 在云 TPU 上进行 Llama 2 训练和推理）。它优化了各种硬件平台上的分布式架构，确保针对不同的 AI 使用案例进行易于使用且高效的模型开发（AssemblyAI 利用 JAX/XLA 和 Cloud TPU 进行大规模 AI 语音）。

开放且独特的多片训练和多主机推理软件分别使扩展、训练和服务工作负载变得顺利和简单。开发人员可以扩展到数万个芯片来支持要求苛刻的人工智能工作负载。

与 Google Kubernetes Engine (GKE) 和 Google Compute Engine 深度集成，提供高效的资源管理、一致的操作环境、自动扩展、节点池自动配置、自动检查点、自动恢复和及时的故障恢复。

Google的人工智能革命性方法通过其新的硬件和软件元素显而易见，这些元素都将打破限制该行业的障碍。看看新的 Cloud TPU v5p 处理单元如何与 AI 超计算机一起帮助正在进行的AI开发将会很有趣，但有一点是肯定的，它们肯定会加剧竞争。

编辑：芯智讯-林子

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2023-12-07，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能