专栏首页音视频技术滴滴李先刚:语音识别在复杂场景的性能将显著提升
原创

滴滴李先刚:语音识别在复杂场景的性能将显著提升

过去九年,从学校到工业界,李先刚一直专注在语音和声学领域。他说,一方面企业越来越重视AI的应用,随着研究的深入,在复杂场景下的语音识别性能将显著提升。

文 / 李先刚

策划 / LiveVideoStack

LiveVideoStack:李先刚你好,非常荣幸代表LiveVideoStack采访你。能否向LiveVideoStack的读者介绍下自己,以及目前关注的领域。

李先刚:我目前任职于滴滴出行AI Labs首席算法工程师,负责滴滴语音相关的技术和应用,关注的领域包括语音相关前沿算法(包括语音识别、说话人识别和自然语言处理等)和他们的产业应用(尤其是在出行场景中的应用)。

LiveVideoStack:大家对滴滴的了解可能还限于“一家出行服务公司”,作为一名工程师,你看到的滴滴是什么样的?与国内外其他科技公司相比有什么不同?

李先刚:滴滴作为移动互联网巨头,一直以来都致力于“让出行更美好”。平台连接了大量的司机和乘客,在这个过程中,怎么样通过技术手段来为用户提供更好的服务,并赋能平台上的司机,提升其服务、运营效率和收入,一直以来都是滴滴技术团队在努力的方向。

从技术层面上来看,与大多数互联网公司不同,滴滴的业务也是一个线上线下结合的公司。滴滴出行业务线下场景的复杂性,以及线下数据的丰富性,给技术带来了非常大的挑战,也给AI技术落地带来了非常大的空间。例如,当司乘有纠纷投诉的时候,行程中录音会被用于责任判定的数据;而如何利用AI技术帮助客服人员提效,便是一个极富挑战性的课题。

LiveVideoStack:我注意到你在北大读博时就在研究语音识别和声学建模,在学校做研究与在企业中做研发和产品,最大的不同是什么?

李先刚:在学校做研究和在企业中做研发,不太的地方还是蛮多的。首先是在研发驱动力方面,学校的研究更多来自于推动技术边界,而企业的研发更多来自于基于技术手段解决企业所面临的业务问题。例如,在企业,项目立项时会需要论证项目的业务价值,或许是提升用户体验,或许是提升企业的运营效率。有了立项,才有对应的研发资源去验证。其次,在学校和企业中,推动研究工作时的优势也会有所不一样,企业往往会有明显的数据和服务器优势。一方面,一般情况下,在企业中,尤其是大量的AI算法的应用中,通过增加数据规模得到性能收益往往相对确定;另外一方面,在企业中也会更加关注基于海量数据的算法性能的体现。

LiveVideoStack:过去九年,你一直专注在语音识别和声学建模领域,有没有考虑过更换方向?或者更大胆的去创业呢?

李先刚:语音相关的技术方向一致以来都是我专注的主要方向。一方面,深度学习技术已经使得语音的各个技术方向的性能都得到了显著的提升,另外一方面,企业界也越来越重视语音相关的AI应用。从而,我也一直专注在语音相关的应用场景中的技术,例如:语音识别,说话人识别,语音合成,情绪识别,口语对话处理等。

语音这些年来也引来了其应用落地的黄金期,在方方面面都在产生其价值。以滴滴为例,语音技术就至少在三个方面起到了非常大的应用:语音智能客服,车载语音交互以及遇到纠纷投诉时基于行程中录音数据更好地判责,赋能业务管控。这些应用也对语音技术提出了越来越高的要求,这也是我过去几年一直在努力推动的方向。

LiveVideoStack:您可介绍下,AI技术对于语音识别、声学建模带来了哪些变化?最新的研究趋势是怎样的?

李先刚:AI技术使得语音识别等任务的基础性能都得到显著的提升。在企业中,在一些场景下,甚至会有这样的预期,只要能够构建起数据回流的正向循环,其系统的性能就会不断地提升。这也是深度学习的强大之处,只要有足够多的数据,企业的研发人员并不用担心深度学习模型最终学到的模型性能。

而从研究角度,语音声学建模中的AI技术过去几年也一直在不断突破着,包括最初在HMM结构下研究采用不同的神经网络结构,而后开始从HMM到CTC再到Attention,深度学习技术也给语音技术架了一座桥,拉进了语音任务和图像还有NLP等任务的距离,使得研究者们能够有机会更多地借鉴相关领域的研究突破。

LiveVideoStack:语音识别、声学建模还存在哪些瓶颈或难点待突破?

李先刚:目前,得益于深度学习的强大,当数据足够充分的情况下,很多语音识别任务的性能都能达到一个还比较不错的水准。但在一些特殊场景下,依然还需要突破。例如code-switch的场景,一个典型的例子,上海地区会发现这样的情况,一段话中,上海话,普通话,英语,随时切换。例如在复杂的会场场景,尤其是面对所谓类似的鸡尾酒会场景时。随着语音技术的迭代,研究者们也逐渐将研究精力越来越多地投入到了这些更复杂的场景中。

LiveVideoStack:我在工作中使用过国内一些主流的语音转文字服务,在环境音嘈杂或远场情况下,识别的效果就大打折扣。如何改进这一状况?

李先刚:这里所提到的语音转文字服务,其实也可以从两个方面来看。首先是从企业角度,流量和需求大的应用往往能够得到更多的企业资源来打磨更好的服务。由于语音识别性能是需要依托于特定场景来谈的。可以看到,例如语音输入法,语音搜索,智能音箱,这些设备的语音识别效果都已经很不错了。这些场景都带有大量的用户需求和用户价值,各大公司也很快积累了大量的针对性的语音训练数据。而其他场景,由于其训练数据的积累相对慢,其性能也相对差。

其次,从技术角度,如果需要做好一款针对记者的转文字服务,也得考虑下该服务需要面临的挑战,会涉及到相对口语化的说话风格,以及是否需要使用特殊硬件设备实现嘈杂或远场情况下的拾音,等等。

LiveVideoStack:能否展望未来几年语音识别、声学建模的发展成果,对于滴滴用户而言,会有哪些体验提升?

李先刚:随着研究者们的努力,可以相信,未来几年,语音识别在更多复杂场景下的语音识别性能也将取得显著的提升。滴滴的语音应用,可以作为出行场景与语音技术结合的典型案例。具体地,在司乘遇到纠纷投诉时,通过语音技术实现对司乘纠纷责任识别,更好地赋能业务管控;在客服场景,通过语音交互技术实现智能辅助以及客服质检的自动化;在车载智能交互场景,通过打造针对司机运营相关的车载语音助手提升体验。随着语音技术的性能提升,可以预期,平台运营效率的提升将使得平台体验显得更规范,客服效率的提升也会使得滴滴对司乘的服务更到位,车载语音助手则会能够真正逐渐成为司机们工作时的助手。

LiveVideoStack:在获取用户(语音)数据的同时,如何保护好用户的隐私,以及保证用户数据不被滥用,您看到了哪些技术手段或规则?

李先刚:用户数据的隐私问题一直以来都是一个需要重点关注的问题。据我所看到的,大公司针对用户的数据安全都是非常重视的,其实国家相关法律也都是有明确规定的。例如在滴滴,行程中录音需要乘客授权,首先如无行程纠纷,七天后会自动删除,其次也只有在有纠纷投诉并获得用户授权的情况下,相关工作人员才会调取,内部也有严密的流程和规范。

LiveVideoStack:分享最近看的一本书或一部电影吧。

李先刚:推荐一本书《原则》

原创声明,本文系作者授权云+社区发表,未经许可,不得转载。

如有侵权,请联系 yunjia_community@tencent.com 删除。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何利用深度学习实现单通道语音分离?

    大家好,我是来自大象声科的闫永杰,接下来我会从以下六个方面为大家介绍深度学习在单通道语音分离中的应用:

    LiveVideoStack
  • 如何利用深度学习实现单通道语音分离?

    大家好,我是来自大象声科的闫永杰,接下来我会从以下六个方面为大家介绍深度学习在单通道语音分离中的应用:

    LiveVideoStack
  • 喜马拉雅贺雯迪:基于端到端TTS实现更具生动、富有情感的语音合成表现

    LiveVideoStack:贺雯迪,你好,感谢你接受LiveVideoStack的采访,作为本次大会AI与多媒体内容生产创作专场的讲师,请先和大家介绍一下你目...

    LiveVideoStack
  • VUI (语音交互)

    Fred Liang
  • 智能机器人语音识别技术

    语音控制的基础就是语音识别技术,可以是特定人或者非特定人的。非特定人的应用更为广泛,对于用户而言不用训练,因此也更加方便。语音识别可以分为孤立词识别,连接词识别...

    机器人网
  • 神一样的文字转语音软件,不仅免费功能还强大

    之前给大家推荐过小程序分享丨智能文字转语音神器,讯飞快读这个小程序可以解决大家文字转语音的问题,小轻论坛也绑定了讯飞快读,大家可以在公众号的菜单栏打开这个小程序...

    半夜喝可乐
  • 语音控制:企业计算的下一个重大突破

    如果说2007年 iPhone 的发布开启了近十年来消费者信息传达被屏幕和视觉统治的时代,那么,语音将成为继智能手机之后企业科技界下一个最大的颠覆。

    人称T客
  • 业界 | 腾讯论文入选Interspeech 2017:在单通道语音分离中应用的深度神经网路的训练优化

    AI 科技评论按:2017年8月20日,语音通信领域的国际顶级学术会议Interspeech 2017在瑞典斯德哥尔摩召开,腾讯音视频实验室王燕南博士的一篇论文...

    AI科技评论
  • 科大讯飞,站在十字路口

    在位于合肥规划中三到四平方公里的中国语音产业园,建筑机械群正在紧张作业。在竣工的讯飞大厦里,两千多名科大讯飞员工围绕“声音”忙碌着。在移动互联网的风口,...

    罗超频道
  • 超过十分之一的报告篇幅给语音,互联网女皇为何看好麦克风?

    KPCB合伙人、享有“互联网女皇”称号的玛丽·米克尔的互联网趋势报告于今天正式发布。毫不夸张地说,这份报告是互联网行业分析的“超级碗”,它用200多页的Keyn...

    罗超频道

作者介绍

精选专题

活动推荐

扫码关注云+社区

领取腾讯云代金券