不方便开声音，Pixel 4 Live Caption把语音转成字幕

文章来源：企鹅号 - 十轮网

你有没有这种经验？当身处公共场合的时候，收到了朋友传来的视频，但当下实在不方便播出声音而手上有刚好没有耳机，就只能看着视频干瞪眼，不知道视频中的人在说什么。现在Google在Pixel 4智能手机导入Live Caption功能，可以将任何语音即时转成字幕，解决这个尴尬的问题。

视频或语音文件的字幕不但对于听障朋友来说格外重要，对于所有人来说也都有所用处，比方在公共场合、会议中、夜深人静时，我们都常常在关闭声音的情况下关看视频，然而并非所有视频都具备字幕，并且不同App的字幕功能也不尽相同，导致有许多短片、声音频息、Podcast等内容无法使用字幕。

为了解决这个问题，Google为Android推出了Live Caption功能，能在设备上直接将视频、音频文件中语音转换为字幕，更棒的是转换过程能够完全在设备上完成，过程不需要网络连接，因此不但不需负担数据资费，也可以保护隐私并降低延迟。

Live Caption可以解决在静音状况下观看视频的字幕问题。

当我们需要在不方便播放声音的场合观看视频，却又要聆听语音内容时。（图片来源：Google，标题图与下同）往往都需要注意不要让声音干扰到其他人。这时候只要按下Live Caption的按钮。

系统就能将视频中的语音即时转成字幕。

Live Caption会在运行过程中调用3个在设备上执行的深度学习模型，其中包括用于识别语音的递归神经网络（Recurrent Neural Network，RNN）串行转导模型（Sequence Transduction Model）、用于识别标点符号的文本基础递归神经网络，以及用于分类语音事件的卷积神经网络（Convolutional Neural Network，CNN），在这3种模型的协同运行下，可以提供完整的字幕，并能加注标点符号，以使用“APPLAUSE”、“MUSIC”等标签表示鼓掌、音乐等背景音效。

有趣的是，语音事件分类模型不只用于标示背景音效，它还能分辨当下是否有语言，因此系统能在有语言出现在才进行语音识别，如此一来就能大量降低整体运算需求，发挥降低内存用量与耗电量的效果。

至于识别标点符号的模型，则是在系统将语音转换为文本后，才开始针对文本进行分析，并切会针对最近识别的句子进行标点符号预测，如果下一个语音识别结果没有更改预测条件的话，就能保留先前的预测，同样能发挥节省电力消耗，并加快识别速度的效果。

Live Caption会使用3种不同的深度学习模型完成语音对文本的转换。（图片来源：Google，下同）

Live Caption属于系统层级的功能，因此可以跨越不同的App中使用。

目前英文版的Live Caption功能已经可以在Pixel 4和Pixel 4 XL等智能手机使用，并会在今年下放到Pixel 3系列机型，Google也计划将功能推广到其他其他Android设备，并提供更多语言的支持，让更多人能享用这个功能。

发表于: 2019-10-302019-10-30 20:48:21
原文链接：https://kuaibao.qq.com/s/20191030A0OYDE00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

不方便开声音，Pixel 4 Live Caption把语音转成字幕

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐