谷歌I/O开发者大会，生成式AI被推上顶峰，大模型安卓15确定要上！

文章来源：企鹅号 - 热点科技

挺过最困的12点，在大家可能已经迈入睡眠的时候，在凌晨1点时刻，我们迎来了期待许久的2024谷歌I/O开发者大会！

本次开发者大会，谷歌核心的重点就放在时下非常火热的生成式AI功能上，其中多次谈及再度升级的Gemini1.5 Pro大模型，并且还发布了谷歌视频生成模型Veo。

另外谷歌搜索也进行升级，同时也宣布Gemini模型将会用于在Android 15之上，并展示了一系列即将上线的生成式AI功能。

发布会开始，谷歌正式推出了“AI Overviews”搜索功能，不过本周会在美国率先开放，后续会陆续在其它国家和地区上线。

谷歌搜索融入Gemini大模型，搜索可以AI生成摘要，并且可以输入一段精确的文字，然后根据文字内容以及场景，去匹配搜索的内容，在做旅游规划时也会创建更合理的清单，甚至会根据天气去做推荐。同时还将上线视频搜索功能，可以拍摄一段视频来搜索想要查找的内容。

随后带来了一个“Ask Photos”功能，该功能的主要亮点就是，在Gemini大模型之下，通过聊天的方式去搜索照片或者视频，比如询问我的车牌是多少，通过检索+辨别的方式，搜索出你的车牌号。另外询问孩子的游泳状况，会搜集到孩子过往的游泳照片，该功能将会在夏天正式推出。

另外谷歌还发布了一个Gemini 1.5 Flash模型，相比Gemini1.5 Pro成本更低，并且针对延迟做了优化，宣称可以一次性分析1500页文档或超过30000行的代码库，为开发人员提供了一个低成本的选择。

紧接而来的是一个重磅Project Astra项目，面向未来的生成式AI交互体验！

演示的视频，显示的是手机通过摄像头对于周围空间环境的理解，并且能够实时的进行语音交互。打开手机摄像头，询问拍到的物体，可以准确识别并给出语音回答，甚至还能记起拍摄过程某个物体的位置，而这种功能可以从手机流转到眼镜上继续使用。

在文生图功能上推出了 Imagen 3，相比上代可以更加准确的识别文字信息，创作的图片也会更符合文本描述。

除了图片、文本生成式创作以外，谷歌发布了视频生成模型Veo，对标OpenAI的Sora，可以通过文本、图像来生成视频，生成的视频分辨率可以达到1080P，并且视频时长可以超过1分钟。

在办公场景中，谷歌 Gmail也会加入Gemini的大模型能力，不仅可以去总结邮件的内容，甚至可以根据需求去比较邮件内容（比如同样装修报价邮件，可以自动比价），并且根据上下文语境智能提供回复内容。

在开发者大会上，谷歌也是明确安卓15将会加入谷歌Gemini大模型，提供更多的AI功能，比如已经在三星AI手机上采用的即圈即搜功能，除了可以搜索物体以外，还加入了截图功能，圈选题目给出解题思路和答案，帮助学生解题。

另外在查看PDF等文件时，可以总结PDF的文件内容，并且以询问的方式获得PDF里面你想要了解的内容。如果识别的页面是视频，也可以对视频的内容、字幕进行分析，更快速获得视频里面的内容。

而且谷歌还为手机加入了AI诈骗电话检测功能，如果在通话过程中识别到疑似诈骗的行为，就会弹出提示窗来警告用户。

相比目前国内手机的生成式AI功能，谷歌所带来的即圈即搜的解题、视频的内容AI分析、AI诈骗电话检测等功能，进一步丰富了手机AI功能体验，大会上谷歌也宣布明天会上线Android 15 Beta 2，期待Android 15正式版上线时所带来的更多AI惊喜。

相关快讯