首页
学习
活动
专区
工具
TVP
发布

人工智能被拒绝,语音识别做不到给电视直播加字幕?

最近几年,以深度学习为基础,人工智能取得了巨大的进展和广泛的应用,其中语音识别是受益最大的领域之一。在深度学习技术的加持下,多家公司都声称自己的语音识别准确率达到了97%以上。语音识别也的确逐渐应用在像手机输入法、智能音箱、会议记录、机器人等场合。

但是有一个领域,是语音识别最适合进入却又始终没能进入的,那就是电视直播。

我们知道,大多数电视节目是有字幕的,这对于聋人显然是有关键性的辅助作用。即使对于听力正常的人,字幕也能更好地消除歧义,以至于很多人现在看没有字幕的电影或电视节目会觉得不适应。目前电视节目的字幕,主要是在节目制作的后期人工编辑的,这对于录播节目是可以的,但是对于直播节目则无法现场实现。因此,大多数直播节目就没有字幕,其中最重要、最受瞩目、需求也最为迫切的就数春晚了。另外,一些重大赛事,像奥运会、足球世界杯等等,现场的解说也是没有字幕的。虽然之后重播时就会有字幕,但无法在第一时间和普通人一样无障碍地收看春晚和重大比赛,还是给聋人带来了很大不便,对普通人也有一定的影响。

天气有预报是有字幕的,因为是录播的

现场直播的体育比赛就不可能有字幕了

那么为什么电视直播不能用语音识别加上字幕呢?简单来说,还是因为语音识别技术还不够好。这不够好,体现在两个方面。

一个方面是,对于语音识别系统来说,电视直播中的语音难度远大于手机输入法中的语音,识别准确率很难达到97%以上,甚至在某些场合可能连90%都无法达到。

难度主要在哪呢?主要在自然口语和口音。电视直播不只是播音员字正腔圆的播报,也有口语的交流,例如主持人偶尔也会插科打诨一下,此时就会回归到发音不那么规范的自然口语,有连音、吞音等,和正常朗读发音会有区别;有时会请个嘉宾领导、先进模范、草根代表上来讲两句,此时除了口语可能还会有方言口音的问题。自然口语和方言口音都是当前语音识别技术还没完全解决好的问题,遇到了准确率会有大幅下降。

在相声小品等语言类节目中,自然口语和方言口音的问题更为普遍。下面是郭德纲常举例子的一段话,是北京话风格,我用某语音输入法试了下。

原文是:“花200钱买一小猪,滋儿滋儿喝水,嘎嘣儿嘎嘣儿吃豆,隔(读jie)着墙头扔过去,滋儿一声。你猜怎么着?死了!”

识别结果是:“二百钱买一小猪猪多喝水,干不干不吃豆接着墙头扔过去点儿的一生,你的怎么找死了?”

作为技术人员,真心觉得识别得已经不错了,但是如果你是看字幕的观众,你会怎么想?像“你的怎么找死了”这种锅,郭德纲肯定不会背吧?

另外,以上还是针对的最理想情况,就是识别的语音是直接从说话人的麦克风里取到的语音,几乎没有噪音干扰,这只存在于电视台自己处理语音时的情况。如果是第三方希望在接收和转发电视节目的同时给视频加上字幕,那么它所获取的是混音之后的音频,那难度就更大——需要解决语音检测和背景消除的问题。所谓语音检测,是指把语音和音乐、唱歌、掌声等各种声音中切割出来,只留下说话的声音送到语音识别引擎里去处理。这也并不容易,而且一旦有错,后面的语音识别就白做了。对于切割的语音,它的背景里仍然可能有音乐。人耳和人脑的强悍使得人可以毫无障碍地识别出含背景音乐的语音,但这种语音可能会使语音识别系统彻底懵掉。

另一方面,即使语音识别的准确率真的达到了97%,还是不可能用在实时电视字幕上的。这是因为,广电领域对字幕准确率的要求极高,错误率以千分之几来衡量,几乎是一个字都不能错的。不符合要求的一律不得播出。普通节目尚且如此,更不要说春晚这种万众瞩目的大场面了。

所以,至少在目前来说,采用语音识别给直播节目加字幕还是不太可行。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190413A08RS700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券