photo by DALL·E3
最近几天,谷歌在AI领域动作频频,发布了一系列重磅更新,除了昨天介绍的玩上瘾到停下来的Gemini 2.0 Flash功能之一的“动嘴PS”(上新|真正AI全模态?Gemini 2.0“语言PS”,作图修图动口不动手,谷歌再刷屏),还包括 Gemini的个性化搜索增强等其它功能、Gemma-3 的开源、以及专为机器人设计的 Gemini Robotics 模型等。这些进展不仅展示了谷歌在AI领域的技术实力,也预示着其未来在个人助手、开源模型和机器人控制等AI全生态领域的布局。
Gemini 进化:更个性化、更智能
Gemini迎来了一系列重大升级,其中最引人关注的是个性化功能的增强。用户现在可以选择让Gemini访问自己的搜索历史,以提供更精准的回答。例如,在查询旅行或餐厅推荐时,Gemini 可结合用户的过往搜索记录,提供更符合个人喜好的建议。
Gemini 2.0 Flash Thinking Experimental版本也正式推出,该模型扩展了上下文窗口,提高了推理能力,使 AI 能够更准确地理解和处理复杂问题。
同时,谷歌宣布开放 Deep Research 功能,免费提供给用户,以提升 AI 在各类研究任务中的应用能力。
此外,谷歌还宣布了一系列 AI 生态扩展计划:
Gems 个人 AI 助手:所有用户现在都可以免费创建自己的AI助手,类似于 OpenAI 的 GPTs。
多应用协作:Gemini 现已与 Google 日历、地图、YouTube、Gmail 等服务深度集成,提高跨应用的智能协作能力。
安全与隐私:谷歌强调,用户可以随时断开 Gemini 与搜索历史的连接,并提供透明的隐私管理选项。
Gemma-3 开源:高性能、低成本
谷歌还推出了新一代多模态 AI 模型——Gemma-3,并宣布部分开源。Gemma-3 在推理效率上进行了重大优化,最大的 270 亿参数版本仅需一张Nvidia H100显卡即可高效运行,相比同类大模型,其成本降低了 10 倍。
在多项评测中,Gemma-3的性能超越了OpenAI的o3-mini和Llama 3,尤其在长文本处理、推理能力和多语言支持方面表现突出。Gemma-3还支持高分辨率图像处理,并引入了ShieldGemma2过滤器,以增强内容安全性。
机器人 AI 新突破:Gemini Robotics 亮相
谷歌 DeepMind 还发布了两款全新 AI 机器人模型——Gemini Robotics 和 Gemini Robotics-ER。这些模型旨在让 AI 更高效地控制现实世界中的机器人,具备更强的物体识别、环境导航和动作控制能力。
DeepMind 的演示视频显示,配备 Gemini Robotics 的机器人已经能够完成一系列复杂任务,如折纸、整理眼镜盒等。更重要的是,该模型可以在未经过专门训练的环境中保持高效的任务执行能力,标志着机器人 AI 迈向更高自主性的发展方向。
在AI竞赛日趋激烈的今天,每家头部公司隔三差五都会迎来一波技术迭代,在迅速的技术发展中领先位置并不能坚持很久,真可以说是“各领风骚四五天”,谷歌AI集中发布的最新进展能帮助其在AI生态竞争中保持多久时间的领先地位,我也将持续关注。
photo by DALL·E3
本文写于2025年3月14日
连续日更的第348天,第372篇
⬆️关注我,一起在AI前沿探索⬆️
领取专属 10元无门槛券
私享最新 技术干货