前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >刚刚!OpenAI 在 ChatGPT 中推出新的语音和图像功能,多模态更进一步!

刚刚!OpenAI 在 ChatGPT 中推出新的语音和图像功能,多模态更进一步!

作者头像
莫尔索
发布2024-03-15 14:30:31
890
发布2024-03-15 14:30:31
举报

ChatGPT正在推出新的语音和图像功能。 语音方面:1.允许用户进行语音对话,提供更直观的交互方式。2. 支持在iOS和‍Android移动应用上使用。 3. 提供5种不同的语音选择。4. 使用新型文本转语音模型和语音识别系统实现。 图像方面:1. 允许用户上传图像与ChatGPT进行交互。2. 支持讨论多张图像。3. 提供移动应用上的绘图工具。 4. 使用多模态GPT模型理解图像。5. 首先面向Plus和企业用户推出。6. 语音和图像功能的推出采取渐进策略,以确保安全性。7. 要注意模型局限性,避免高风险场景下的依赖。 下面是 OpenAI 博客原文👇

我们正在开始推出 ChatGPT 的新语音和图像功能。它提供了一种新的、更直观的接口类型,允许您进行语音对话或向 ChatGPT 展示您在谈论的内容。

语音和图像为您提供了在生活中使用 ChatGPT 的更多方式。当旅行时拍摄地标照片,并就其有趣之处进行实时对话。当您在家时,拍摄冰箱和食品储藏室的图片,以确定今晚要吃什么(并提出后续问题以逐步获取食谱)。晚餐后,通过拍照、圈出问题集并与您一起分享提示来帮助您的孩子解决数学问题。

我们正在向 Plus 和企业用户推出 ChatGPT 中的语音和图像功能,在未来两周内推出。语音将在 iOS 和 Android 上推出(在设置中选择加入),图像将在所有平台上提供。

与 ChatGPT 对话,并让它回复

您现在可以使用语音与您的助手进行双向对话。与它闲聊、为家人请求睡前故事,或在餐桌上解决争论。使用语音与您的助手进行双向对话。

要开始使用语音,请转到移动应用程序上的“设置”->“新功能”,然后选择加入语音对话。然后,点击主屏幕右上角的耳机按钮,并从五种不同的语音中选择您偏好的语音。

新的语音功能由一个新的文本到语音模型提供支持,该模型能够从仅仅文本和几秒钟的语音样本生成类人的音频。我们与专业配音员合作,创建了每种语音。我们还使用 Whisper,我们的开源语音识别系统,将您的语音转录为文本。

聆听语音示例

选择文字故事配方演讲诗歌解释

一旦在一片宁静的树林里,有一只叫 Lila 的蓬松的母猫。一个阳光明媚的日子,她和她玩耍的小猫 Milo 一起依偎在一棵老橡树的树荫下。 “Milo,”Lila 柔声细语地说道,“你马上就要有一个新的玩伴了。” Milo 好奇地竖起耳朵。“一个新的玩伴?” Lila 发出呼噜声,“是的,一个小妹妹。” Milo 兴奋地睁大了眼睛。“一个妹妹?她会像我一样追逐尾巴吗?” Lila 笑了。“哦,她会有自己的怪癖。你会教她的,不是吗?” Milo 热切地点点头,已经开始想象他们将要分享的冒险。

和图像进行聊天

您现在可以向 ChatGPT 展示一张或多张图像。解决烧烤架为什么不启动的问题,探索冰箱的内容以计划一餐,或分析包含工作相关数据的复杂图表。为了聚焦图像的特定部分,您可以使用移动应用程序中的绘图工具。

向 ChatGPT 展示一张或多张图像。

要开始,点击拍照按钮捕获或选择图像。如果您在 iOS 或 Android 上,请先点击加号按钮。您还可以讨论多张图像或使用我们的绘图工具来指导您的助手。

图像理解由多模态 GPT-3.5 和 GPT-4 提供支持。这些模型将其语言推理技能应用于各种图像,如照片、屏幕截图和包含文本和图像的文档。

我们正在逐步部署图像和语音功能

OpenAI 的目标是建立安全且有益的 AGI。我们认为逐步提供我们的工具非常重要,这使我们能够随着时间的推移进行改进和完善风险缓解措施,同时也为所有人准备好未来更强大的系统。当涉及到语音和视觉的高级模型时,这种策略变得尤为重要。

语音

新语音技术——仅需几秒钟的真实语音就能生成逼真的合成语音——为许多创造性和辅助性应用打开了大门。然而,这些功能也带来了新的风险,例如恶意行为者可能会冒充公众人物或进行欺诈。

这就是为什么我们使用这项技术来驱动一个特定的用例——语音聊天。语音聊天是与我们直接合作的配音演员创造的。我们也以类似的方式与其他人合作。例如,Spotify 正在利用这项技术的力量为他们的语音翻译[1]功能试点,这有助于播客主持人通过使用播客主持人自己的声音将播客翻译成更多语言来扩大他们的讲述力量。

图像输入

基于视觉的模型也带来了新的挑战,从对人们的幻想到依赖模型对图像的解释这类高风险领域。在更广泛的部署之前,我们使用红队测试员测试了高风险领域的模型,如极端主义和科学能力,以及各种 alpha 测试者。我们的研究使我们能够就负责任的使用达成一致意见。

使视觉既有用又安全

与其他 ChatGPT 功能一样,视觉是关于帮助您的日常生活。当它可以看到您看到的内容时,它才能最好地做到这一点。

这种方法是根据我们与 Be My Eyes 的工作直接告知的,Be My Eyes 是一个为盲人和低视力人士提供的免费移动应用程序,以了解使用和局限性。用户告诉我们,当背景中出现人物时(例如,当您试图搞清遥控器设置时,电视上出现某人),他们会发现就图像进行一般对话很有价值。

我们还采取了技术措施,显著限制了 ChatGPT 对人员的分析和直接陈述的能力,因为 ChatGPT 不总是准确的,而这些系统应该尊重个人的隐私。

真实的使用情况和反馈将帮助我们在保持工具有用的同时使这些安全保障更好。

关于模型局限性的透明度

用户可能会依赖 ChatGPT 进行特定的专题,例如研究等领域。我们对模型的局限性保持透明,并阻止在没有适当验证的情况下使用高风险用例。此外,该模型善于转录英语文本,但在某些其他语言(尤其是非罗马字母的语言)上的表现较差。我们建议我们的非英语用户不要将 ChatGPT 用于此目的。

您可以在图像输入系统[2]中阅读有关我们的安全性方法及与 Be My Eyes 合作的更多信息。

我们将扩大访问权限

Plus 和企业用户将在未来两周内体验语音和图像。我们很高兴在不久之后将这些功能推出给其他群体的用户,包括开发人员。

参考资料

[1]

语音翻译: https://newsroom.spotify.com/2023-09-25/ai-voice-translation-pilot-lex-fridman-dax-shepard-steven-bartlett

[2]

图像输入系统: https://openai.com/research/gpt-4v-system-card

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2023-09-25,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 莫尔索随笔 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 与 ChatGPT 对话,并让它回复
    • 聆听语音示例
    • 和图像进行聊天
    • 我们正在逐步部署图像和语音功能
      • 语音
        • 图像输入
          • 使视觉既有用又安全
            • 关于模型局限性的透明度
            • 我们将扩大访问权限
              • 参考资料
              相关产品与服务
              语音识别
              腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档