Google I/O 发布会总结，量子速读版本

文章来源：企鹅号 - 歸藏

简短总结一下昨晚 Google 的 I/O 发布会，

模型侧内容

重点侧重模型层面的内容，全线开花几乎覆盖了目前所有的生成模型类型：

Gmini 1.5 Pro 宣布开始支持 200 万上下文，跨关键用例的一系列质量改进，例如翻译、编码、推理等”，但没有发布测试结果。

宣布推出 Gemini Flash，这款更小的 Gemini 模型针对较窄或高频任务进行了优化，其中模型响应时间的速度最为重要。提到百万 Token 的价格比 GPT-3.5 要便宜。

Gemini 模型家族的构成：

Ultra：“最大的模型”（仅在Gemini Advanced中）

Pro：“最佳总体性能模型”（今天在 API 预览版中提供，6 月发布）

Flash：“轻量级速度/效率模型”（今天在 API 预览版中提供，6 月正式发布）

Nano：“设备上模型”（将内置于Chrome 126中）

Gemini Gems 谷歌的 GPTs，支持自定义与 Gemini 的互动方式。

Gemini Live ：“使用声音进行深入的双向对话的能力。”，Project Astra - 实时视频理解个人助理聊天机器人，就是基于这个能力。

Gemma 2：6 月发布规模为27B（之前为 7B 和 2B），以一半的尺寸提供接近 Llama-3-70B 的性能。

PaliGemma：谷歌的第一个视觉语言开放模型，灵感来自PaLI-3 。

Veo：DeepMind 对标 Sora 的模型，HN 上有些体验过的人表示不太行，国际象棋的棋盘和棋子生成的都不对。

Imagen 3：图像模型，能够理解人们自然书写的提示，生成更高质量的逼真图像，并且在渲染文本方面表现卓越。

Music AI Sandbox：旨在彻底改变音乐创作方式的AI工具套件。用户能够全新创作乐器部分，轻松在不同曲目间转换风格。

Trillium：最新的TPUs，在每颗芯片的计算性能上，相比上一代TPU v5e，实现了高达4.7倍的显著提升。

产品侧内容

谷歌搜索的更新：

AI Overviews：今天将开始向美国所有人推出，很将能够通过选项调整 AI 概述，以简化语言或更详细地解释。

引入多步骤推理能力，这一功能能够将复杂的问题拆解成多个小部分，明确解决问题的顺序和方法。

很快就能在搜索中使用视频提问了。

提前计划：在搜索中直接具有规划功能，可以为需要的任何事物制定计划，从餐饮到度假。

AI 组织的搜索结果：搜索将使用生成式人工智能与您进行头脑风暴，并创建一个由人工智能组织的结果页面（跟 Arc 那个 Demo 类似）。

Workspace（Gmail）：内置了Gemini Pro 1.5，可以帮助总结查找邮件内容和编写邮件回复。

谷歌文档：侧边栏的 Gemini Pro 1.5 集成，文档的改写总结等。

谷歌表格：使用 Gemini 和 Data Q&A 功能请求帮助，创建表格和数据分析等功能在今年晚些时候推出。

Google Photos：Ask Photos可以帮助用自然语言搜索图片和视频，可以理解并回答复杂问题。

Circle to Search：现在成为了极佳的学习小帮手，可以在手机或平板上圈选复杂的物理问题，获得分步骤的指导帮助你学会解题。

相关快讯