凭借在语音识别领域多年的技术和项目实践积累,同花顺AI研究院语音团队royalflush在ASRU2019中英混杂语音识别挑战赛中取得佳绩:在大赛所设三个赛道竞技中均进入前列,其中在端到端语音识别赛道获得季军,同时在传统语音识别(开放语言模型和固定语言模型)两个赛道也均取得较好的成绩。同花顺AI研究院首席科学家、语音技术专家胡新辉认为,能够同时参加三个赛道的竞赛并取得较好成绩,表明同花顺AI研究院在中英文混杂语音识别领域的建模基础扎实,覆盖面宽,适应性强,达到了业界领先水平。基于这些技术以及在语音合成、声纹识别及说话人区分等领域的其他成果,我们有信心持续为语音相关的业务产品赋予新能力。
ASRU2019中英混杂语音识别挑战赛由数据堂、西北工业大学和中国计算机学会联合主办,旨在促进多语种混杂语音识别领域的研究和技术交流。挑战赛吸引了国内外近百个团队参加,其中包括众多在语音识别技术领域拥有卓越研究成果的知名企业和高校。获奖团队将参加2019年12月新加坡ASRU2019会议(语音技术国际旗舰学术会议)的颁奖与技术交流活动。
技术研发能力持续进化,同花顺AI研究院语音竞赛获佳绩
随着社会的国际化发展,在我们的日常交流中,中文语境下夹杂英文单词的现象越来越普遍。对这类语音的识别在学术上称为语种混杂(Code-switch)识别技术,这是当前语音识别技术面临的重要挑战之一。其技术难点主要表现为:嵌入语受主体语影响形成的非母语口音现象严重、不同语言音素构成之间的差异给混合声学建模带来巨大困难、带标注的混合语音训练数据极其稀缺。
相较于传统语音识别建模方式,赛道三中应用的端到端语音识别减少了建模步骤,实现声学特征到文本输出的直接建模。同花顺用于本次竞赛的端到端模型系统,以谷歌推出的Transformer网络作为基础模型结构,引入CTC/Attention联合训练方式,提高模型训练的鲁棒性并加快收敛速度。同时,结合Code-switch任务的特殊性,引入语种识别作为模型训练的辅助学习任务,辅以数据扩充、正则化参数调整等优化技术,最终实现的中英文混合识别端到端模型,以9.00%的综合错误率取得了第三名的成绩。值得一提的是,本系统针对英文的识别效果优化明显。
不同于赛道三,赛道二主要考察了我们语言建模和数据处理及领域覆盖能力。针对这种资源少的中英混杂识别任务,怎样进行数据扩充以达到较高识别率成为这一赛道的一个难点。对此,同花顺采用了多种不同的方法组合对文本数据进行了有效扩充,最终以5.88%的识别错误率位居第四。
语音技术的应用将爆发式增长,为产品和业务拓展赋予新的引擎
同花顺语音团队的目标,是构建全栈式语音技术能力,以语音所具有的交互便利性和自然性持续为产品业务创造新动能,提升产品竞争力,为用户创造更大的价值。
此次挑战赛,同花顺语音团队参加了所有三个赛道的任务。一方面是为了提升团队研发能力,另一方面也是一次对自身语音服务技术架构的检验。竞赛结果表明,同花顺在端到端语音识别系统、自主研发语言建模、数据处理能力上均已达到领先水平,我们能够针对不同用户的不同需求,制定更合适客户的模型,做到懂你所懂,思你所思。
同花顺的业务产品正在向海外稳步拓展,而本次竞赛任务目标正好与公司的业务发展形态吻合,语音技术的进步能快速地与场景应用结合,相信能为公司的发展注入长久动力。
另外获悉,同花顺AI研究院的语音技术能力覆盖中英文语音识别、语音合成、声纹识别、语种识别等基础研究方向,相关语音服务已经在公司内外部产品和系统中得到广泛应用,包括同花顺手机炒股、小象来电、智能客服、智能外呼和质检等等,服务性能得到充分检验。尤其是在金融领域,得益于长期积累的数据优势,语音识别性能达到了行业领先水平。
领取专属 10元无门槛券
私享最新 技术干货