在真实环境下测试ASR的必要性

用户6026865

发布于 2019-08-14 17:03:01

8620

发布于 2019-08-14 17:03:01

以下内容来自于www.speechtechnology.com，链接如下：

http://www.speechtechmag.com/Articles/News/Industry-Voices/Avoid-Being-Fooled-by-Parlor-Tricks-The-Necessity-of-Real-World-Environment-Testing-for-ASR--130682.aspx

语音助理(Voice Assistant)可以在多样的，经常是困难的，声音环境下正常运作，是成功的重要支柱(key pillar for success)。语音助理的市场快速扩张意味着将会在各种不同的环境和情况下被使用(be used in many different situations and environments)，在很多情况下需要适应不同的情境（adapt to the variability of the scenarios），这对新兴市场来说可能蕴藏着巨大的风险(huge risk for this emerging market)。

由Amazon, Google, Xiaomi, Alibaba等巨头所开发的语音助理正准备接管整个世界(be poised to take over the world)。一份由Juniper Research发布的报告，估计在2020年美国至少有超过7000万家庭(hoseholds)将拥有至少一台具备语音助理功能的智能音箱。(voice assistant-enabled speaker)

孤注一掷的语音助理(High Stakes for Voice Assistants)

在2017年的时候消费者平均每月仅使用语音助理一次，调查表明消费者在使用语音购物(voice shopping)的时候体验并不是那么令人开心。

报告估计仅有2%的Amazon Echo用户曾经尝试通过语音助理购物，其中90%的消费者在尝试一次以后就再也不会尝试了。

这表明用户体验对于消费者在除了搜索和提问以外，持续使用语音助理是非常非常重要的。

这也是为什么在真实而复杂的环境中正常表现对于语音助理是多么，多么的重要。语音助理的快速市场采用，意味着将在多变而复杂的环境和情境下使用(different situations and environments)，需要产品去适应广泛而多变的场景(scenarios)，对于这个新兴市场来说蕴含着巨大的风险(huge risk for this emerging market)。

当前的声音环境模型是满足不了需求的

各公司在开发各自的语音助手的时候，都会创立自己的人工合成环境(synthetic environments)用以模拟(mimic)产品运行的真实环境。

对于测试环境因素的可量化需求(quantifiable environmental factors)，使对真实情境的模拟成为了必须( be necessitated by)，通常依靠于设备对不同环境声音组合的匹配(dependent on the device matching an environmental sound profile to the scene when activate)。

设备在此环境声组合，来确定信号处理和噪音消除功能，以便为ASR（Automatic speech recognition）提供干净的输入信号，将语音转换为命令和行动(convert into commands and actions)。

在真实世界情境中(in real-world situations)，设备，目标说话者，不同的背景噪音源(multiple sources of background noise)，以及其他语音，通常同时出现并相互关联(be present and often moving relative to one another)。

一个声音组合，在开始的时候可能有效，但后续在场景切换的时候可能就完全不够。而场景通常是不断快速切换的。在当前的设备中，我们希望用户在使用语音助理的时候要控制使用环境(the user is expected to control the environment for the voice assistant)。

想象一下大约有10亿的用户在未经任何训练的情况下使用产品，语音助理很可能提供的是次优的表现(likely deliver sub-optimal results)，会极大的危害到语音助理的快广泛采用（hinder the widespread adoption）。

语音助理需要适应不同的情境(be ready for any situation)

在未来，语音助理在真实的自然环境中的流行(prevail in natural environments)，取决于其自身对音响空间实时变化的评估和在无人工干预情况下的智能适配（evaluate a soundscape and intelligently adapt to the changes in real time withoug human assistant）。

我们可以与无人驾驶车做一个比较恰当的比较(apt comparison with driverless cars)。在正常情况下(in the case of regular)，由人来操控汽车，由测试员来评估加速，刹车，方向控制和耐碰撞性(crashworthiness)，所有这些都是在相对的环可约束境下(relatively constrained scenarios)。即使是现代的汽车，带有车道感知(lane sensing)，盲点探测(blind spot detection)，本质上(essentially)依靠操作员的感知和认知能力(perceptual and congnitive abilities)，来成功的驾驶从 A点到B点。

在无人驾驶车辆中，计算机负责探测路边坑洼(potholes)，其他车辆，道路交通信号(street singals)，天气和道路情况，各种无视交通的行人(jaywalking pedestrians)。

真实世界公共道路的复杂程度是没有办法通过人工来模拟的(the real-world complexity of public road are essentially impossible to mimic in an artificial setting），没有人指望无人驾驶车辆在没有经过严苛的真实环境下的道路和高速路测试就通过了审查。

同样的情况亦适用于语音处理软件在真实世界情况下的评估，和其对复杂环境的适配能力。

对真实环境的测试仿真

如果语音助理必须承担在复杂声响环境下正常使用的责任(undertake the responsibility ofr navigating complex soundscapes)，我们必须改变测试语音助理的方式。必须评估语音助理和信号处理，的感知和认知能力，而不是完全依靠人类操作(no longer be expected to be the responsibility of the human operators)。

语音助理必须掌握的感知能力包括(the perceptual tasks to master)：

持续跟踪目标声源的方向和距离(follow the targeted voice over time, orientation and distance)
区分非目标声源的类型和方位(classify the genre and orientation)
对声音场景(audible scene)假设的可能性的修正的跟踪(track the probability of correctness of the hypothesis about the audible scene)
实时的(in timely fashion)对声音场景推定的任何变更的更新（any changes inferred in the audible scene）

此外，语音助理需要执行如下的感知任务(perform the following cognitive tasks):

对不同声音场景的快速适配，包括音源分离的信号处理(singal processing for source separation)，回声消除(echo cancellation)和声源特征抽取(source feature extraction)。
使用试错法(trial-and-error)信号处理来应对场景感知信息不足的情况(deal with situations with inadequate perceptual information about the scene)
将目标语音作为感知前端，而降其他推入后端(push others into the perceptual background)
在任何时候可以修复被信号处理损坏的目标语音（be damaged by aggressive signal processing）

在特定的环境下(in a given situations)语音助理的表现，应该与同事间听到和理解说话者的声音类似，否则用户就会感觉到失望和沮丧(be disappointed and frustrated)。

与其尝试去人工模拟难以计数的不同情况(rather than attempting to simulate countless situations in synthetic environment)，简单记录大量的不同情况会容易的多(much easier to simply record an enormous variety of situations)。

因此，最自然的解决方案是配置一个庞大数据库，记录真实环境下，日常的杂音背景(everyday noisy environment），并混以远场(far-field)，近场(near-field)和环境声响源(ambient soud sources)。

后续我们可以利用此数据库来评估语音助理，并且相互加以比对(assess individual voice assistants and compare with each others)

可以挑战语音助理处理真实世界环境下重要的感知和认知任务的能力，是该数据库至关重要的任务(handle the important perceptual and cognitive tasks for real-world environments)。

通过此真实世界声响环境模拟数据库的测试，是确保语音助理在复杂的真实世界环境中持续提供令人满意的用户体验的唯一途径(test against such a varied, real-world scenarios is the only way to ensure a voice assistant is ready to consistently deliver satisfying consumer experience in the real world).

本文参与腾讯云自媒体分享计划，分享自微信公众号。

原始发表：2019-04-17，如有侵权请联系 cloudcommunity@tencent.com 删除

数据库

sql

本文分享自 SmellLikeAISpirit 微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体分享计划，欢迎热爱写作的你一起参与！

数据库

sql

登录后参与评论

0 条评论

热度

在真实环境下测试ASR的必要性

在真实环境下测试ASR的必要性

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐