首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

INTERSPEECH2020干货|标贝科技收录论文线上研讨 助力产研技术协作

一年一度的全球顶级语音大会INTERSPEECH于日前拉开帷幕。本届INTERSPEECH以“Cognitive Intelligence for Speech Processing”为主题,涵盖信号处理、语音识别、自然语言处理、机器翻译等众多领域,本届大会共收到超过2000余篇论文投稿,而收录的论文则代表当前业内最新的语音研究成果和未来技术趋势。

标贝科技作为本届大会金牌赞助厂商,通过线上专区及主题研讨形式,向全球语音科研机构及厂商,展现标贝前沿语音研发技术及行业应用方案,以加强工业界和技术界的协作交流,助力行业快速发展。

在10月27日晚,标贝科技受主办方邀请,针对本次收录论文《A Mask-based Model for Mandarin Chinese Polyphone Disambiguation》(译为基于掩码的普通话多音字消歧模型,以下简称“论文”),准时出现线上直播间,做深度分享研讨。

众所周知,在语音合成研究领域,多音字消歧旨在为给定的多音字预测出对应的发音,该模块在语音合成前端充当着重要的角色。对于多音字消歧问题,一般基于如下的三种做法:基于字典和规则库相结合的方法、基于统计模型的方法、基于深度学习的方法。

据标贝科技语音研发相关人员介绍,基于深度学习进行多音字消歧是当前的研究热点,但现方法仍存在着如下问题

1、倘若对所有多音字单独建模,会导致模型众多,维护成本提升,倘若对全体多音字统一建模,会导致模型可能预测出非当前多音字的候选拼音

2、多音字的发音分布存在着不平衡情况,会影响对应的模型性能

针对问题1,标贝科技提出了Weighted-softmax, 通过构造了掩码向量,使得模型可以对所有多音字进行统一建模,且防止了模型预测出非当前多音字的候选拼音。

针对问题2,标贝提出了一个新损失函数并将其命名为Modified Focal Loss,用以缓解多音字分布不均衡的问题。

该负责人介绍,通过实验,标贝验证了Weighted-softmax以及Modified Focal Loss的有效性,实验结果显示,Weighted-softmax可以防止模型预测当前多音字的集外拼音,而Modified Focal Loss可以缓解不平衡数据对模型带来的影响。

因而,从行业学术角度来看,该论文引入了掩码矩阵来进行多音字消歧任务,这对当前提升语音合成效果提供了重要的文献参考价值。

值得注意的是,在整个论文线上研讨分享过程中,行业相关代表对论文研究过程产生了兴趣并提出相关问题,例如掩码向量如何设计等专业问题。标贝相关代表对此做出详细解答,获得线上观众的一致认可。

究其原因,标贝科技自成立以来,把AI技术创新放在首位,以“语音连接场景、数据服务技术为理念”,在技术、数据及应用三端不断创新,夯实其在语音和数据领域的基础能力。

例如,在语音合成方面上,标贝是国内最早引用Attention机制厂商之一,基于深度神经网络技术,充分利用文本数据,构建前端模块、选择合适的声码器,降低运算量,创新语音合成模型,提升语音合成质量效果,并匹配场景应用。以出色的语音技术实力、场景连接能力,赢得客户信任与认可。此外,标贝还自主创新研发TTS评测系统,从前/后端为行业提供评测标准指南,提升语音评测质量整体发展。

此外,在产研方面,标贝与清华大学、北京大学、西北工业大学、厦门大学、新加坡国立大学等国内外众多高校展开语音相关研讨工作,以加强自身科研实力。据了解,由标贝科技与西工大、清华与厦大联合举办的SLT2021语音识别挑战赛名次结果于近日刚刚出炉。大赛历时近3个月时长比拼,共有超过50家队伍报名参赛,来自欧洲、亚洲、北美及中国的高校、科研机构和厂商。超高的赛事人气与热度,为语音行业的蓬勃发展增添助推剂。

本届INTERSPEECH2020将持续至29日结束,关于标贝科技更多动态,可关注活动期间每晚线上直播间,做交流问答。

线上直播时间 :北京时间,每晚8点到9点,持续至29日结束

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20201028A0FP7200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券