人工智能被拒绝，语音识别做不到给电视直播加字幕？

文章来源：企鹅号 - 嗨嗨科技屋

最近几年，以深度学习为基础，人工智能取得了巨大的进展和广泛的应用，其中语音识别是受益最大的领域之一。在深度学习技术的加持下，多家公司都声称自己的语音识别准确率达到了97%以上。语音识别也的确逐渐应用在像手机输入法、智能音箱、会议记录、机器人等场合。

但是有一个领域，是语音识别最适合进入却又始终没能进入的，那就是电视直播。

我们知道，大多数电视节目是有字幕的，这对于聋人显然是有关键性的辅助作用。即使对于听力正常的人，字幕也能更好地消除歧义，以至于很多人现在看没有字幕的电影或电视节目会觉得不适应。目前电视节目的字幕，主要是在节目制作的后期人工编辑的，这对于录播节目是可以的，但是对于直播节目则无法现场实现。因此，大多数直播节目就没有字幕，其中最重要、最受瞩目、需求也最为迫切的就数春晚了。另外，一些重大赛事，像奥运会、足球世界杯等等，现场的解说也是没有字幕的。虽然之后重播时就会有字幕，但无法在第一时间和普通人一样无障碍地收看春晚和重大比赛，还是给聋人带来了很大不便，对普通人也有一定的影响。

天气有预报是有字幕的，因为是录播的

现场直播的体育比赛就不可能有字幕了

那么为什么电视直播不能用语音识别加上字幕呢？简单来说，还是因为语音识别技术还不够好。这不够好，体现在两个方面。

一个方面是，对于语音识别系统来说，电视直播中的语音难度远大于手机输入法中的语音，识别准确率很难达到97%以上，甚至在某些场合可能连90%都无法达到。

难度主要在哪呢？主要在自然口语和口音。电视直播不只是播音员字正腔圆的播报，也有口语的交流，例如主持人偶尔也会插科打诨一下，此时就会回归到发音不那么规范的自然口语，有连音、吞音等，和正常朗读发音会有区别；有时会请个嘉宾领导、先进模范、草根代表上来讲两句，此时除了口语可能还会有方言口音的问题。自然口语和方言口音都是当前语音识别技术还没完全解决好的问题，遇到了准确率会有大幅下降。

在相声小品等语言类节目中，自然口语和方言口音的问题更为普遍。下面是郭德纲常举例子的一段话，是北京话风格，我用某语音输入法试了下。

原文是：“花200钱买一小猪，滋儿滋儿喝水，嘎嘣儿嘎嘣儿吃豆，隔（读jie）着墙头扔过去，滋儿一声。你猜怎么着？死了！”

识别结果是：“二百钱买一小猪猪多喝水，干不干不吃豆接着墙头扔过去点儿的一生，你的怎么找死了？”

作为技术人员，真心觉得识别得已经不错了，但是如果你是看字幕的观众，你会怎么想？像“你的怎么找死了”这种锅，郭德纲肯定不会背吧？

另外，以上还是针对的最理想情况，就是识别的语音是直接从说话人的麦克风里取到的语音，几乎没有噪音干扰，这只存在于电视台自己处理语音时的情况。如果是第三方希望在接收和转发电视节目的同时给视频加上字幕，那么它所获取的是混音之后的音频，那难度就更大——需要解决语音检测和背景消除的问题。所谓语音检测，是指把语音和音乐、唱歌、掌声等各种声音中切割出来，只留下说话的声音送到语音识别引擎里去处理。这也并不容易，而且一旦有错，后面的语音识别就白做了。对于切割的语音，它的背景里仍然可能有音乐。人耳和人脑的强悍使得人可以毫无障碍地识别出含背景音乐的语音，但这种语音可能会使语音识别系统彻底懵掉。

另一方面，即使语音识别的准确率真的达到了97%，还是不可能用在实时电视字幕上的。这是因为，广电领域对字幕准确率的要求极高，错误率以千分之几来衡量，几乎是一个字都不能错的。不符合要求的一律不得播出。普通节目尚且如此，更不要说春晚这种万众瞩目的大场面了。

所以，至少在目前来说，采用语音识别给直播节目加字幕还是不太可行。

发表于: 2019-04-132019-04-13 14:06:14
原文链接：https://kuaibao.qq.com/s/20190413A08RS700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

人工智能被拒绝，语音识别做不到给电视直播加字幕？

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐