OpenAI 通过语音通信和视觉搜索扩展 ChatGPT

文章来源：企鹅号 - 新潮科技讯

OpenAI 对 ChatGPT 所做的大多数更改都是为了增强人工智能 (AI) 驱动的机器人的功能。这些是关于它可以回答的问题、它可以访问的知识以及它可以开发的子模型。但现在，OpenAI 正在做出一些改变，并重构 ChatGPT 的使用方式。该公司正准备发布一个服务版本，用户可以通过语音命令操作人工智能机器人，而不仅仅是打字或简单地上传照片。

ChatGPT 的语音聊天和视觉搜索创新

语音聊天功能看起来很简单。按一下按钮说出您的问题，ChatGPT 会将其转换为文本并将其输入大型语言模型，获得响应，将其翻译回语音，然后说出响应。

OpenAI 的 Whisper 模型在语音和文本处理中发挥着重要作用。此外，该公司正在推出一种新的文本转语音模型，该模型可以“仅从文本和几秒钟的示例语音中生成类似人类的声音”。OpenAI 表示，这项工作的潜在用途包括将播客翻译成其他语言，同时保留播客创作者的声音。

ChatGPT 的视觉搜索功能有点让人想起 Google Lens。您拍摄了您感兴趣的事物的照片，ChatGPT 会尝试猜测您想了解什么。

当然，视觉搜索有其自身的潜在问题。例如，当您查询某人的聊天机器人时可能会发生什么，这是一个好奇的问题。OpenAI 表示，出于准确性和隐私原因，ChatGPT 故意限制其“分析和直接发表有关人们的言论的能力”。这导致了人工智能最科幻的愿景之一：看着某人并问“这是谁？” 这意味着暂时不会发生询问。可以说，这是一件好事。

OpenAI 试图通过限制 ChatGPT 新模型的功能来抵消风险。但随着语音控制和视觉搜索变得越来越流行，并且 ChatGPT 越来越接近成为真正的多模式、有用的虚拟助手，这变得越来越困难。

ChatGPT 推出近一年后，OpenAI 仍在试图找出向聊天机器人添加更多特性和功能而不产生新问题和缺点的最佳方法。通过这些产品的推出，该公司试图通过有意识地限制其新车型的功能来实现这种平衡。但这种方法不会永远有效。

随着ChatGPT成为多模式、便捷的虚拟助手，并且越来越多的人开始使用语音控制和视觉搜索，这些保护措施将变得越来越难以维护。尽管使用量和活动的增加会带来安全和隐私问题，但 OpenAI 的解决方案似乎是为了确保新功能得到谨慎且合乎道德的使用。

显然，创造一种只需要几秒钟的声音并像人类一样说话的合成声音的可能性涉及冒充公众人物或实施欺诈等风险。因此 OpenAI 不允许广泛使用该模型。相反，该模型将受到控制并仅限于目标用途和合作伙伴关系。

OpenAI 的 ChatGPT 应用程序还将添加视觉搜索功能，以及让人想起 Alexa 或 Google Assistant 的语音聊天功能。这让我们能够想象出一个超越当前人工智能技术的、能力超群的助手，或许最常见于科幻电影中。但值得注意的是，这一愿景的实现仍需时日，还有不少挑战需要解决。

因此，OpenAI 扩展 ChatGPT 功能的努力引发了关于人工智能技术的问题和潜力的广泛争论。这项研究是一个令人兴奋的例子，展示了人工智能技术如何改变用户的生活以及社会将如何适应这项新技术。然而，重要的是不要忽视这项技术的新问题和担忧。

发表于: 2023-09-262023-09-26 09:25:46
原文链接：https://page.om.qq.com/page/OFhFm5prhYAYcN69WlKkimnA0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

OpenAI 通过语音通信和视觉搜索扩展 ChatGPT

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐