首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

英伟达推出 AI 语音识别模型 Parakeet,号称优于 Whisper

据站长之家 1 月 8 日报道,开源对话 AI 工具包 NVIDIA NeMo 宣布推出 Parakeet ASR 模型系列,这是一系列最先进的自动语音识别(ASR)模型,能够以出色的准确性转录英语口语。

英伟达宣布推出了四个 Parakeet 模型,这些模型基于 RNN Transducer/Connectionist Temporal Classification 解码器,并且具有 0.6-1.1 亿参数。它们能够应对各种音频环境,并且在仅使用了 64000 小时的数据集进行训练后,在基准数据集上实现了出色的词错误率(WER)表现,优于以往的模型。

根据开发人员的说法,这些模型对音乐和静音等非语音片段具有鲁棒性,并且在基准测试中优于 OpenAI 的 Whisper v3。它们还通过预先训练的控制点提供用户友好的集成到项目中。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O6QK2_wZoWXn7PzZGmKBT0EA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券