首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

不方便开声音,Pixel 4 Live Caption把语音转成字幕

你有没有这种经验?当身处公共场合的时候,收到了朋友传来的视频,但当下实在不方便播出声音而手上有刚好没有耳机,就只能看着视频干瞪眼,不知道视频中的人在说什么。现在Google在Pixel 4智能手机导入Live Caption功能,可以将任何语音即时转成字幕,解决这个尴尬的问题。

视频或语音文件的字幕不但对于听障朋友来说格外重要,对于所有人来说也都有所用处,比方在公共场合、会议中、夜深人静时,我们都常常在关闭声音的情况下关看视频,然而并非所有视频都具备字幕,并且不同App的字幕功能也不尽相同,导致有许多短片、声音频息、Podcast等内容无法使用字幕。

为了解决这个问题,Google为Android推出了Live Caption功能,能在设备上直接将视频、音频文件中语音转换为字幕,更棒的是转换过程能够完全在设备上完成,过程不需要网络连接,因此不但不需负担数据资费,也可以保护隐私并降低延迟。

Live Caption可以解决在静音状况下观看视频的字幕问题。

当我们需要在不方便播放声音的场合观看视频,却又要聆听语音内容时。(图片来源:Google,标题图与下同)往往都需要注意不要让声音干扰到其他人。这时候只要按下Live Caption的按钮。

系统就能将视频中的语音即时转成字幕。

Live Caption会在运行过程中调用3个在设备上执行的深度学习模型,其中包括用于识别语音的递归神经网络(Recurrent Neural Network,RNN)串行转导模型(Sequence Transduction Model)、用于识别标点符号的文本基础递归神经网络,以及用于分类语音事件的卷积神经网络(Convolutional Neural Network,CNN),在这3种模型的协同运行下,可以提供完整的字幕,并能加注标点符号,以使用“APPLAUSE”、“MUSIC”等标签表示鼓掌、音乐等背景音效。

有趣的是,语音事件分类模型不只用于标示背景音效,它还能分辨当下是否有语言,因此系统能在有语言出现在才进行语音识别,如此一来就能大量降低整体运算需求,发挥降低内存用量与耗电量的效果。

至于识别标点符号的模型,则是在系统将语音转换为文本后,才开始针对文本进行分析,并切会针对最近识别的句子进行标点符号预测,如果下一个语音识别结果没有更改预测条件的话,就能保留先前的预测,同样能发挥节省电力消耗,并加快识别速度的效果。

Live Caption会使用3种不同的深度学习模型完成语音对文本的转换。(图片来源:Google,下同)

Live Caption属于系统层级的功能,因此可以跨越不同的App中使用。

目前英文版的Live Caption功能已经可以在Pixel 4和Pixel 4 XL等智能手机使用,并会在今年下放到Pixel 3系列机型,Google也计划将功能推广到其他其他Android设备,并提供更多语言的支持,让更多人能享用这个功能。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191030A0OYDE00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券