谷歌I/O开发者大会5月14日正式举行。首日长达两个小时的Keynote演讲环节,信息量巨大,以下我们综合整理了其中的16个信息点:
1、推出“AI Overviews”功能,能使用生成式人工智能来综合信息并回答更复杂的问题,本周将向美国所有用户推出,后续会推广到更多国家和地区。
2、推出Ask Photos的新功能,Google Photos将支持用户存储图片的AI搜索。
3、推出Gemini 1.5 Flash。该模型速度更快,体积更小,部署更加灵活,并支持多模态。
4、对Gemini 1.5 Pro模型升级,把上下文窗口(人工智能模型可理解的信息量)从当前100万tokens增加到200万。意味着,当提示中给出数千页文本或一个多小时的视频时,Gemini 1.5 Pro也能够处理。支持35种语言。
5、谷歌展示“未来的人工智能助手”,一个名为“Astra”的项目,能够通过摄像头视频,识别“什么东西能发出声音”、“现在身处何地”等指令。
6、推出文生视频模型Veo,可以生成长度超过1分钟,分辨率最高1080P、具有多种视觉和电影风格的“高质量”视频;
7、推出文生图大模型Imagen 3,处理文本的能力比上一代产品更好,而且它在处理长提示词的细节方面也更智能。谷歌称这是该公司“最高质量”的文生图模型,具有“难以置信的细节水平”,能够生成“照片般逼真的图像”。
8、谷歌与唱片艺术家合作测试人工智能音乐工具Music AI Sandbox。这套人工智能音乐创作工具将与Suno等展开竞争。
9、夏季将扩展Gemini的多模态功能,包括增加用语音进行深入双向对话的能力,该功能被称为 Live。通过Gemini Live,用户可以与Gemini交谈,并可以从各种自然的声音中选择它回应的声音。
10、将推出被称为Gems的Gemini的定制版本,用户可以获得个性化体验。
11、推出新的多模态AI项目Project Astra,可以为用户解释智能手机拍到的东西。
12、谷歌表示,今年晚些时候,能够在本地运行的多模态Gemini Nano模型将登陆Pixel手机,意味着手机将能通过文字、图片、视频、音频,理解用户的世界。
13、谷歌发布第六代TPU芯片Trillium,比上一代TPU v5e芯片提高4.7倍,能效比v5e高出67%。这款芯片旨在为从大模型中生成文本和其他内容的技术提供动力。年底可供其云客户使用。
14、将在今年6月发布开源大模型Gemma 2,支持270亿参数。谷歌称其表现已经超过比它大两倍的模型。
15、Android 15已融入谷歌Gemini大模型升级后能力,支持诸如AI语音助理防诈骗、画圈图片搜索、理解图片给出更符合用户需求的答案等功能,Android 15 Beta 2本周正式推出。
16、谷歌云将在2025年初用上英伟达最新Blackwell架构GPU。
领取专属 10元无门槛券
私享最新 技术干货