5月1日电 谷歌今日宣布,其人工智能助手Gemini新增本地化图像编辑功能,用户可对AI生成的图像或自主上传的图片进行精细化修改。该功能将于即日起逐步全球上线,预计数周内覆盖多数国家,并支持超过45种语言,进一步推动AI创作工具的普惠性。
多模态编辑:从“生成”到“创造”的跨越
此次升级的核心在于Gemini突破纯文本交互的局限,实现“多步骤”图像编辑能力。用户可通过自然语言指令与图像结合的方式,完成复杂创作。例如,上传个人照片后,可要求“生成不同发色的自己”;或输入“龙的睡前故事配图”,系统将自动生成图文结合的创意内容。此外,更换背景、替换物体、添加元素等常见需求均可通过文本引导实现,大幅降低图像处理门槛。
谷歌强调,与依赖云端的传统工具不同,Gemini的本地编辑功能支持离线操作,响应速度更快且隐私性更强。这一特性使其在创意设计、教育、电商等领域具备更广泛的应用潜力,例如设计师可快速迭代产品概念图,教师可即时生成教学素材。
技术演进与争议回应
此次功能更新被视为对3月AI Studio图像编辑模型争议的积极回应。彼时,该模型因能识别并删除图片水印引发对内容篡改风险的讨论。对此,谷歌在本次发布中推出双重水印机制:所有经Gemini生成或编辑的图片均嵌入不可见的数字水印,供平台识别;同时实验性地在部分图片添加可见标识,以提升透明度。
“我们致力于在创新与责任间取得平衡。”谷歌AI团队负责人表示,“多步骤编辑不仅是技术突破,更是对用户创作自由的赋能。水印系统则是对内容可信度的主动承诺。”
行业影响与未来展望
分析人士指出,Gemini的图像编辑功能或将重塑AI创作生态。相较于Midjourney、DALL-E等专注生成的工具,其“生成-编辑-迭代”的闭环能力更贴近专业用户需求。此外,本地化部署可能成为差异化竞争点,尤其在数据隐私敏感的市场。
目前,该功能已在安卓和iOS端同步上线,用户可通过Gemini应用直接体验。随着多语言支持的扩展,其全球开发者社区或将催生更多跨文化创意应用。谷歌透露,未来将进一步探索图像与3D内容、视频生成的联动,持续拓展AI创作边界。
结语
从文本生成到多模态编辑,Gemini的升级标志着AI工具正从“辅助”向“共创”演进。在技术狂飙中,谷歌通过水印机制与本地化策略回应社会关切,为行业提供了兼顾创新与伦理的范本。这场“创作革命”将如何影响内容产业格局,值得持续关注。