首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

ASR的识别率到底有没有衡量标准?

最近不少客户知道我们天天讯通除了有人工系统OKCC,还有AI机器人系统。陆陆续续也就有客户来询问我们AI机器人的合作政策,同时也有客户问到我们AI机器人的识别率怎么样?我一般回复是:比一线差一点点。说好了是黄婆卖瓜自卖自夸,识别率没有一个衡量标准,百分之多少是好,百分之多少是不好,标准基准线在哪?

基准线我不知道,但是有个衡量公式。接下来说说两个问题:

一、ASR的识别率有没有衡量标准,如果有,公式是怎样的?

ASR(Automatic Speech Recognition)语音识别技术的识别率通常使用WER(Word Error Rate)来衡量,也称为词错误率。WER是通过计算识别结果与参考文本之间不匹配的单词数量来确定的,然后将其除以参考文本中的单词总数,得到一个百分比。

WER 的计算公式如下:

WER = (S + D + I) / N

其中:

S 是替换错误(substitution errors)的数量,即识别结果与参考文本不同但是替换了一个单词;

D 是漏识错误(deletion errors)的数量,即参考文本中有但是未被识别出来的单词数量;

I 是插入错误(insertion errors)的数量,即识别结果中没有但是在参考文本中存在的单词数量;

N 是参考文本中的单词总数。

可以使用WER来比较不同ASR系统的性能,因此WER是衡量语音识别技术性能的重要指标之一。

二、不同语种和不同方言对ASR是识别率有什么影响,是否可以优化,具体怎么优化?

不同语种和不同方言对ASR识别率有很大的影响。首先,不同语种的语音特征会有所不同,因此需要针对每种语种进行单独的训练和优化。其次,即使在同一种语言中,不同的方言或口音也会导致语音信号的差异,从而影响ASR的准确性。

为了优化不同语种和方言的ASR识别率,可以采取以下方法:

收集并整理语音数据:收集足够数量且具有代表性的语音数据是提高ASR识别率的关键。对于不同语种和方言,应该收集各自的语音数据,并进行相关的清理、标注和整理工作。

针对不同语种和方言进行模型训练:使用收集到的语音数据,可以针对不同语种和方言分别进行模型训练。通常情况下,需要利用该语种的文本数据来训练相应的语言模型,以便更好地处理该语种的语音信号。

选择合适的特征提取技术:不同语种和方言的语音特征差异较大,因此需要选择合适的特征提取技术。例如,基于梅尔频率倒谱系数(MFCC)的特征提取技术可以适用于大多数语种,但对于某些语种或方言可能不太适用。因此,需要根据具体情况选择合适的特征提取技术。

确定合适的语音识别算法和模型结构:不同的语音识别算法和模型结构适用于不同的语种和方言。例如,循环神经网络(RNN)和卷积神经网络(CNN)可以同时处理时间序列和频域信息,适用于大多数语种。但是,对于一些特殊的语种或方言,可能需要使用其他类型的算法或模型结构。

进行后期优化和改进:在完成初步的训练和优化之后,还可以通过进一步调整参数、增加数据量、融合其他模型等方法来进一步提高ASR的准确性。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O8f-g8okVqvIRqMqxKH7ijbA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券