首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ChatGPT多模态时代正式开启,语音交互、图像识别双升级

ChatGPT迎来重磅更新,正式开启多模态时代!本次更新为ChatGPT增添了语音交互和图像识别两大能力,使其拥有了“眼睛”“耳朵”和“嘴巴”,将为人机交互带来革命性升级。

语音交互:你说它懂

现在可以使用语音与ChatGPT进行来回对话。随时随地与它交谈,为您的家人请求睡前故事,或解决餐桌上的争论。

或回到家时,拍下冰箱和食品储藏室的照片,以了解晚餐吃什么(并询问后续问题以获取食谱)。

晚餐后,通过拍照、圈出问题集并让它与你们俩分享提示来帮助孩子解决数学问题。

借助开源工具Whisper,它可以准确识别语音并转化为文本。此外,ChatGPT还提供了5种专业的语音播报员,支持富有情感的语音输出。‍

看下实际效果:

语音交互功能也令ChatGPT更加智能便捷。用户无需输入,就可以通过语音获取所需信息,极大地提升了交互效率。

图像识别:它学会了“看”

但图像识别功能才是此次更新的重头戏。ChatGPT通过调用计算机视觉技术,利用GPT-4强大的推理能力,可以分析和理解复杂的图片内容。用户只需拍照或截图,它就可以快速作出回应,提供解决方案。

比如:排查烧烤炉无法启动的原因,探索冰箱中的物品来计划膳食,或分析复杂的图表以获取与工作相关的数据。

官方发布的演示视频生动展示了这一能力。当用户需要调节自行车座椅高度时,ChatGPT可以通过分析座椅图片,主动提供操作步骤,并根据工具箱图片推荐正确工具。

ChatGPT的图像识别潜力是无限的。你还可以有更多的玩法,比如在旅游时随手拍一处风景,就可以让GPT充当导游为你讲解,或者呢,当你的小孩不会写作业时拍下作业,GPT摇身一变就成为一名私人家教,甚至呢,让GPT充当健身教练,帮你纠正姿势,帮你选择衣服搭配,帮你定装修风格等等等等

综上,GPT-4作为新一代多模态AI,其视觉交互能力令人非常期待。OpenAI这次的发布无疑是AI发展历史上的重要进展。可能再次颠覆很多行业,让更多工作实现自动化。这次更新后,恐怕又会有很多人“面临失业”。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OdIAZ9zuhVMmMYqdcex8f-wQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券