滴滴李先刚：语音识别在复杂场景的性能将显著提升

原创

LiveVideoStack

修改于 2019-07-15 18:18:07

1.7K0

修改于 2019-07-15 18:18:07

文章被收录于专栏：音视频技术

过去九年，从学校到工业界，李先刚一直专注在语音和声学领域。他说，一方面企业越来越重视AI的应用，随着研究的深入，在复杂场景下的语音识别性能将显著提升。

文 / 李先刚

策划 / LiveVideoStack

LiveVideoStack：李先刚你好，非常荣幸代表LiveVideoStack采访你。能否向LiveVideoStack的读者介绍下自己，以及目前关注的领域。

李先刚：我目前任职于滴滴出行AI Labs首席算法工程师，负责滴滴语音相关的技术和应用，关注的领域包括语音相关前沿算法（包括语音识别、说话人识别和自然语言处理等）和他们的产业应用（尤其是在出行场景中的应用）。

LiveVideoStack：大家对滴滴的了解可能还限于“一家出行服务公司”，作为一名工程师，你看到的滴滴是什么样的？与国内外其他科技公司相比有什么不同？

李先刚：滴滴作为移动互联网巨头，一直以来都致力于“让出行更美好”。平台连接了大量的司机和乘客，在这个过程中，怎么样通过技术手段来为用户提供更好的服务，并赋能平台上的司机，提升其服务、运营效率和收入，一直以来都是滴滴技术团队在努力的方向。

从技术层面上来看，与大多数互联网公司不同，滴滴的业务也是一个线上线下结合的公司。滴滴出行业务线下场景的复杂性，以及线下数据的丰富性，给技术带来了非常大的挑战，也给AI技术落地带来了非常大的空间。例如，当司乘有纠纷投诉的时候，行程中录音会被用于责任判定的数据；而如何利用AI技术帮助客服人员提效，便是一个极富挑战性的课题。

LiveVideoStack：我注意到你在北大读博时就在研究语音识别和声学建模，在学校做研究与在企业中做研发和产品，最大的不同是什么？

李先刚：在学校做研究和在企业中做研发，不太的地方还是蛮多的。首先是在研发驱动力方面，学校的研究更多来自于推动技术边界，而企业的研发更多来自于基于技术手段解决企业所面临的业务问题。例如，在企业，项目立项时会需要论证项目的业务价值，或许是提升用户体验，或许是提升企业的运营效率。有了立项，才有对应的研发资源去验证。其次，在学校和企业中，推动研究工作时的优势也会有所不一样，企业往往会有明显的数据和服务器优势。一方面，一般情况下，在企业中，尤其是大量的AI算法的应用中，通过增加数据规模得到性能收益往往相对确定；另外一方面，在企业中也会更加关注基于海量数据的算法性能的体现。

LiveVideoStack：过去九年，你一直专注在语音识别和声学建模领域，有没有考虑过更换方向？或者更大胆的去创业呢？

李先刚：语音相关的技术方向一致以来都是我专注的主要方向。一方面，深度学习技术已经使得语音的各个技术方向的性能都得到了显著的提升，另外一方面，企业界也越来越重视语音相关的AI应用。从而，我也一直专注在语音相关的应用场景中的技术，例如：语音识别，说话人识别，语音合成，情绪识别，口语对话处理等。

语音这些年来也引来了其应用落地的黄金期，在方方面面都在产生其价值。以滴滴为例，语音技术就至少在三个方面起到了非常大的应用：语音智能客服，车载语音交互以及遇到纠纷投诉时基于行程中录音数据更好地判责，赋能业务管控。这些应用也对语音技术提出了越来越高的要求，这也是我过去几年一直在努力推动的方向。

LiveVideoStack：您可介绍下，AI技术对于语音识别、声学建模带来了哪些变化？最新的研究趋势是怎样的？

李先刚：AI技术使得语音识别等任务的基础性能都得到显著的提升。在企业中，在一些场景下，甚至会有这样的预期，只要能够构建起数据回流的正向循环，其系统的性能就会不断地提升。这也是深度学习的强大之处，只要有足够多的数据，企业的研发人员并不用担心深度学习模型最终学到的模型性能。

而从研究角度，语音声学建模中的AI技术过去几年也一直在不断突破着，包括最初在HMM结构下研究采用不同的神经网络结构，而后开始从HMM到CTC再到Attention，深度学习技术也给语音技术架了一座桥，拉进了语音任务和图像还有NLP等任务的距离，使得研究者们能够有机会更多地借鉴相关领域的研究突破。

LiveVideoStack：语音识别、声学建模还存在哪些瓶颈或难点待突破？

李先刚：目前，得益于深度学习的强大，当数据足够充分的情况下，很多语音识别任务的性能都能达到一个还比较不错的水准。但在一些特殊场景下，依然还需要突破。例如code-switch的场景，一个典型的例子，上海地区会发现这样的情况，一段话中，上海话，普通话，英语，随时切换。例如在复杂的会场场景，尤其是面对所谓类似的鸡尾酒会场景时。随着语音技术的迭代，研究者们也逐渐将研究精力越来越多地投入到了这些更复杂的场景中。

LiveVideoStack：我在工作中使用过国内一些主流的语音转文字服务，在环境音嘈杂或远场情况下，识别的效果就大打折扣。如何改进这一状况？

李先刚：这里所提到的语音转文字服务，其实也可以从两个方面来看。首先是从企业角度，流量和需求大的应用往往能够得到更多的企业资源来打磨更好的服务。由于语音识别性能是需要依托于特定场景来谈的。可以看到，例如语音输入法，语音搜索，智能音箱，这些设备的语音识别效果都已经很不错了。这些场景都带有大量的用户需求和用户价值，各大公司也很快积累了大量的针对性的语音训练数据。而其他场景，由于其训练数据的积累相对慢，其性能也相对差。

其次，从技术角度，如果需要做好一款针对记者的转文字服务，也得考虑下该服务需要面临的挑战，会涉及到相对口语化的说话风格，以及是否需要使用特殊硬件设备实现嘈杂或远场情况下的拾音，等等。

LiveVideoStack：能否展望未来几年语音识别、声学建模的发展成果，对于滴滴用户而言，会有哪些体验提升？

李先刚：随着研究者们的努力，可以相信，未来几年，语音识别在更多复杂场景下的语音识别性能也将取得显著的提升。滴滴的语音应用，可以作为出行场景与语音技术结合的典型案例。具体地，在司乘遇到纠纷投诉时，通过语音技术实现对司乘纠纷责任识别，更好地赋能业务管控；在客服场景，通过语音交互技术实现智能辅助以及客服质检的自动化；在车载智能交互场景，通过打造针对司机运营相关的车载语音助手提升体验。随着语音技术的性能提升，可以预期，平台运营效率的提升将使得平台体验显得更规范，客服效率的提升也会使得滴滴对司乘的服务更到位，车载语音助手则会能够真正逐渐成为司机们工作时的助手。

LiveVideoStack：在获取用户（语音）数据的同时，如何保护好用户的隐私，以及保证用户数据不被滥用，您看到了哪些技术手段或规则？

李先刚：用户数据的隐私问题一直以来都是一个需要重点关注的问题。据我所看到的，大公司针对用户的数据安全都是非常重视的，其实国家相关法律也都是有明确规定的。例如在滴滴，行程中录音需要乘客授权，首先如无行程纠纷，七天后会自动删除，其次也只有在有纠纷投诉并获得用户授权的情况下，相关工作人员才会调取，内部也有严密的流程和规范。