首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ChatGPT 即将支持多模态,可进行图像和语音交互

前 言

ChatGPT can now see, hear, and speak. Rolling out over next two weeks, Plus users will be able to have voice conversations with ChatGPT (iOS & Android) and to include images in conversations (all platforms).

ChatGPT 现在可以看、听和说话。在接下来的两周内推出,Plus 用户将能够与 ChatGPT(iOS 和 Android)进行语音对话,并在对话中包含图像(所有平台)。

九月二十五日晚,OpenAI官方Twitter上发布了重大消息:ChatGPT正式启动了多模态功能,不仅增加了语音互动,还融入了图像识别技术。这意味着,ChatGPT不只是文字交流那么简单,它能“听”能“看”,还能用语音为你播报。

接下来的两周,ChatGPT Plus和企业版的用户可以体验到上传图片与ChatGPT的互动功能。而对于移动端的用户,则可以直接用语音与ChatGPT聊天,这应该是整合了OpenAI自己的Whisper工具,它能够将用户的语音实时转化为准确的文字。而且还会提供多个专业的播音员,能够将文字转化为充满情感的语音播报。

当然最大的亮点还是图像交互功能。结合了先进的图像识别技术和GPT4模型的强大推理,能够进行深入的图像分析和解读。无论是移动端还是PC端,Plus用户都可以体验到这一功能。尽管正式版还没有上线,但官方已经给出了一个移动端的完整演示。比如,当你不知道如何调整山地车的座椅高度时,只需用手机拍一张照片,上传到ChatGPT并提问,它就能为你提供多种解决方案。另外,ChatGPT还配备了简单的绘图工具(不知道PC端会不会支持),用户可以直接在图上画出想要询问的部分,ChatGPT会为你详细解答。例如,你拍下工具箱的照片,输入命令,ChatGPT会为你推荐合适的工具。

另外前几天,OpenAI最近分享了关于DALL·E 3的细节,这次DALL·E 3更新会提高生成图像的准确性和画面质量,从演示效果来看是相当不错,不过估计主要是为了实现多模态的功能,画质和风格的丰富度应该还是赶不上Midjourney的。DALL·E 3计划在10月为ChatGPT Plus用户提供。也就是说10月可以在ChatGPT中实现图像生成和交互,还是蛮值得期待的~

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OaVupWT4PujH7y59aPvFw3Yg0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券