谷歌I/O开发者大会首日要点速览

文章来源：企鹅号 - 腾讯科技

谷歌I/O开发者大会5月14日正式举行。首日长达两个小时的Keynote演讲环节，信息量巨大，以下我们综合整理了其中的16个信息点：

1、推出“AI Overviews”功能，能使用生成式人工智能来综合信息并回答更复杂的问题，本周将向美国所有用户推出，后续会推广到更多国家和地区。

2、推出Ask Photos的新功能，Google Photos将支持用户存储图片的AI搜索。

3、推出Gemini 1.5 Flash。该模型速度更快，体积更小，部署更加灵活，并支持多模态。

4、对Gemini 1.5 Pro模型升级，把上下文窗口（人工智能模型可理解的信息量)从当前100万tokens增加到200万。意味着，当提示中给出数千页文本或一个多小时的视频时，Gemini 1.5 Pro也能够处理。支持35种语言。

5、谷歌展示“未来的人工智能助手”，一个名为“Astra”的项目，能够通过摄像头视频，识别“什么东西能发出声音”、“现在身处何地”等指令。

6、推出文生视频模型Veo，可以生成长度超过1分钟，分辨率最高1080P、具有多种视觉和电影风格的“高质量”视频；

7、推出文生图大模型Imagen 3，处理文本的能力比上一代产品更好，而且它在处理长提示词的细节方面也更智能。谷歌称这是该公司“最高质量”的文生图模型，具有“难以置信的细节水平”，能够生成“照片般逼真的图像”。

8、谷歌与唱片艺术家合作测试人工智能音乐工具Music AI Sandbox。这套人工智能音乐创作工具将与Suno等展开竞争。

9、夏季将扩展Gemini的多模态功能，包括增加用语音进行深入双向对话的能力，该功能被称为 Live。通过Gemini Live，用户可以与Gemini交谈，并可以从各种自然的声音中选择它回应的声音。

10、将推出被称为Gems的Gemini的定制版本，用户可以获得个性化体验。

11、推出新的多模态AI项目Project Astra，可以为用户解释智能手机拍到的东西。

12、谷歌表示，今年晚些时候，能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机，意味着手机将能通过文字、图片、视频、音频，理解用户的世界。

13、谷歌发布第六代TPU芯片Trillium，比上一代TPU v5e芯片提高4.7倍，能效比v5e高出67%。这款芯片旨在为从大模型中生成文本和其他内容的技术提供动力。年底可供其云客户使用。

14、将在今年6月发布开源大模型Gemma 2，支持270亿参数。谷歌称其表现已经超过比它大两倍的模型。

15、Android 15已融入谷歌Gemini大模型升级后能力，支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能，Android 15 Beta 2本周正式推出。

16、谷歌云将在2025年初用上英伟达最新Blackwell架构GPU。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货