“ChatGPT迎来重磅更新,正式开启多模态时代!本次更新为ChatGPT增添了语音交互和图像识别两大能力,使其拥有了“眼睛”“耳朵”和“嘴巴”,将为人机交互带来革命性升级。”
语音交互:你说它懂
现在可以使用语音与ChatGPT进行来回对话。随时随地与它交谈,为您的家人请求睡前故事,或解决餐桌上的争论。
或回到家时,拍下冰箱和食品储藏室的照片,以了解晚餐吃什么(并询问后续问题以获取食谱)。
晚餐后,通过拍照、圈出问题集并让它与你们俩分享提示来帮助孩子解决数学问题。
借助开源工具Whisper,它可以准确识别语音并转化为文本。此外,ChatGPT还提供了5种专业的语音播报员,支持富有情感的语音输出。
看下实际效果:
语音交互功能也令ChatGPT更加智能便捷。用户无需输入,就可以通过语音获取所需信息,极大地提升了交互效率。
图像识别:它学会了“看”
但图像识别功能才是此次更新的重头戏。ChatGPT通过调用计算机视觉技术,利用GPT-4强大的推理能力,可以分析和理解复杂的图片内容。用户只需拍照或截图,它就可以快速作出回应,提供解决方案。
比如:排查烧烤炉无法启动的原因,探索冰箱中的物品来计划膳食,或分析复杂的图表以获取与工作相关的数据。
官方发布的演示视频生动展示了这一能力。当用户需要调节自行车座椅高度时,ChatGPT可以通过分析座椅图片,主动提供操作步骤,并根据工具箱图片推荐正确工具。
ChatGPT的图像识别潜力是无限的。你还可以有更多的玩法,比如在旅游时随手拍一处风景,就可以让GPT充当导游为你讲解,或者呢,当你的小孩不会写作业时拍下作业,GPT摇身一变就成为一名私人家教,甚至呢,让GPT充当健身教练,帮你纠正姿势,帮你选择衣服搭配,帮你定装修风格等等等等
综上,GPT-4作为新一代多模态AI,其视觉交互能力令人非常期待。OpenAI这次的发布无疑是AI发展历史上的重要进展。可能再次颠覆很多行业,让更多工作实现自动化。这次更新后,恐怕又会有很多人“面临失业”。
领取专属 10元无门槛券
私享最新 技术干货