首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

OpenAI 够不够 Open 不好说,至少开源的这俩模型值得关注

上周举办的 OpenAI 开发者大会给众多开发者和 ChatGPT 用户带来了不少惊喜,多数人可能错过了,OpenAI 还在开发者日发布了两个开源模型。

这俩模型一个是语音转文本模型 Whisper 的 large-v3 版本,另一个是可以替换目前 Stable Diffusion 扩散类模型 VAE 解码器的 Consistency Decoder,这两个模型和 ChatGPT 新的产品特性一样有趣,同样非常值得关注。

Whisper 模型

NVIDIA 高级 AI 科学家 Jim Fan 把 Whisper large-v3 模型称为:“目前为止最优秀的开源语音识别模型”。并且从 OpenAI 发布的技术报告评估结果来看,它在数十种语言的测试集上相比 Whisper-V2 有显著改进。

Whisper 算是众多研究者心中比较喜爱的基础模型之一,因为它的工作流程较为简单,Whisper 能直接将音频转化为文本,并且具有特殊的 meta language tokens 标记,可以优雅地同时执行多任务,例如:语言检测、翻译、时间戳对齐等。

值得一提的是 Whisper 论文第一作者是传奇人物 Alec Radford,他同时也是OpenAI 发布的所有革命性论文的作者之一。

据说 Whisper 模型至少为 GPT-4 及后续版本提供了数万亿条高质量的对话标记,这些内容来自互联网视频和音频。

Whisper v3 对比 v2

在对开源语音识别模型Whisper的最新版本large-v3进行测试之后,目前还是推荐使用其前一版本 large-v2。经比较发现,large-v3在识别准确性方面存在较大问题,错误率显著高于large-v2。具体差异表现在:

1. large-v3版本有较高频率出现重复错误,而这在large-v2版本中相对较少。

2. large-v3的时间轴划分更为精细,先前一个语音片段现在可能会被分割成两段。这种变化可视具体场景而定,可能既有利也有弊。

3. large-v3具备识别language-v2忽略的语气词的能力。

4. large-v3偶尔会遗漏语音片段中的一些内容。

鉴于 large-v3 版本在准确性方面的缺陷,依旧推荐使用 large-v2 版本,不过这也不能证明 v3 版本没有进步,这些问题我们会持续关注,相信 OpenAI 会解决这些问题。

Consistency Decoder

另一个 OpenAI 开源项目是 Consistency Decoder 也就是一致性解码器。它出自于 “Consistency Models” 这篇论文,由 Yang Song 博士主导,杨博士是扩散模型的先驱之一。使用 Consistency Decoder 替换目前 Stable Diffusion 用的 VAE 解码器,能做到改善文本、人脸和几何图案的渲染效果。

渲染效果对比

上方右图是 Consistency Decoder 作为解码器生成的图片,可以看到字母和数字最终的渲染效果更加清晰真实,能证明 Consistency Decoder 在处理文本细节方面可以有出色表现。

再来看生成人像图片的对比测试,对比 Consistency Decoder 和原始 VAE 解码器的生成效果,Consistency Decoder 确实看着好了一些,但不算好太多。

需要注意的是当扩散模型加上 Consistency Decoder 之后图片生成时间大概慢了一倍,当前版本为了这一点效果要额外增加太多生成时间,多少有点不太值当。

不过作为被快速关注到的新模型,而且也是在 DALLE-3 中使用的解码器,相信之后版本的优化迭代会减少生成时间,并且在效果优化上也会有更多进展。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O4ljGjEeJcOXeW3FadSj_HZA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券