最近不少客户知道我们天天讯通除了有人工系统OKCC,还有AI机器人系统。陆陆续续也就有客户来询问我们AI机器人的合作政策,同时也有客户问到我们AI机器人的识别率怎么样?我一般回复是:比一线差一点点。说好了是黄婆卖瓜自卖自夸,识别率没有一个衡量标准,百分之多少是好,百分之多少是不好,标准基准线在哪?
基准线我不知道,但是有个衡量公式。接下来说说两个问题:
一、ASR的识别率有没有衡量标准,如果有,公式是怎样的?
ASR(Automatic Speech Recognition)语音识别技术的识别率通常使用WER(Word Error Rate)来衡量,也称为词错误率。WER是通过计算识别结果与参考文本之间不匹配的单词数量来确定的,然后将其除以参考文本中的单词总数,得到一个百分比。
WER 的计算公式如下:
WER = (S + D + I) / N
其中:
S 是替换错误(substitution errors)的数量,即识别结果与参考文本不同但是替换了一个单词;
D 是漏识错误(deletion errors)的数量,即参考文本中有但是未被识别出来的单词数量;
I 是插入错误(insertion errors)的数量,即识别结果中没有但是在参考文本中存在的单词数量;
N 是参考文本中的单词总数。
可以使用WER来比较不同ASR系统的性能,因此WER是衡量语音识别技术性能的重要指标之一。
二、不同语种和不同方言对ASR是识别率有什么影响,是否可以优化,具体怎么优化?
不同语种和不同方言对ASR识别率有很大的影响。首先,不同语种的语音特征会有所不同,因此需要针对每种语种进行单独的训练和优化。其次,即使在同一种语言中,不同的方言或口音也会导致语音信号的差异,从而影响ASR的准确性。
为了优化不同语种和方言的ASR识别率,可以采取以下方法:
收集并整理语音数据:收集足够数量且具有代表性的语音数据是提高ASR识别率的关键。对于不同语种和方言,应该收集各自的语音数据,并进行相关的清理、标注和整理工作。
针对不同语种和方言进行模型训练:使用收集到的语音数据,可以针对不同语种和方言分别进行模型训练。通常情况下,需要利用该语种的文本数据来训练相应的语言模型,以便更好地处理该语种的语音信号。
选择合适的特征提取技术:不同语种和方言的语音特征差异较大,因此需要选择合适的特征提取技术。例如,基于梅尔频率倒谱系数(MFCC)的特征提取技术可以适用于大多数语种,但对于某些语种或方言可能不太适用。因此,需要根据具体情况选择合适的特征提取技术。
确定合适的语音识别算法和模型结构:不同的语音识别算法和模型结构适用于不同的语种和方言。例如,循环神经网络(RNN)和卷积神经网络(CNN)可以同时处理时间序列和频域信息,适用于大多数语种。但是,对于一些特殊的语种或方言,可能需要使用其他类型的算法或模型结构。
进行后期优化和改进:在完成初步的训练和优化之后,还可以通过进一步调整参数、增加数据量、融合其他模型等方法来进一步提高ASR的准确性。
领取专属 10元无门槛券
私享最新 技术干货