首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

Google解释Pixel手机录音程序背后的语音转文本技术

Google之前就推出适用于Pixel手机的新型录音应用程序Recorder,这个录音程序不只可以将语音转译成文本,还可以可视化地显示声音类型的分类,另外,在录音结束用户要输入标题时,Recorder也会提供建议标签。这些功能,都是Google应用设备上机器学习技术开发,现在披露了背后的细节。

将语音转录成文本的功能,其应用的技术在早前就已经趋于成熟,Recorder可以使用设备上自动语音识别模型,即时地转译语音,Google提到,除了增加模型稳定度,使其能可靠地转录数小时的录音之外,他们还将单词对应到时间戳以索引对话,用户可以点击转录出来的单词,并且从对应时间点开始播放录音,用户也能搜索单词,并精确地跳到录音提到该单词的时间点。

虽然显示录音的文本记录,可让用户搜索特定单词,但Google提到,以可视化标示特定时刻或是声音的录音段落,对于长时间的录音来说,用户能更容易进行搜索。因此Recorder会将声音以波型表现,并且用不同颜色来表示不同的声音类型,像是狗叫声或是乐器演奏就会以不同的颜色区分。

实际情况通常是同一个时间点,Recorder可能会录到多种声音,Google会将波型以最具代表性的声音颜色着色。Recorder识别声音类型的方法,会侦测部分重叠的960微秒声音音框(Frame),来判断50微秒区间的声音类型,Google提到,以较小50微秒偏移量分析处理960微秒窗口中的内容,不容易出错且能精确的找出窗口开始时间与结束时间。

另外,当音频录制完成之后,Recorder会挑选最具记忆性的内容作为建议标签,用户可以快速地应用这些标签撰写成标题。而为了能够在音频录制结束之后,马上能够提供建议标签,Recorder在转录音频的时候,便会即时进行分析。

Recorder会计算单词出现的次数以及在句子中的语法作用,并且大写专有名词,接着会使用词性标记程序,这是一个根据句子文法标记每个单词的模型,来侦测用户更容易记住的一般名词与专有名词,Recorder以对话数据以及字词频率和特性等文本特征训练决策树,计算单词和双字词分数,在滤掉禁用词与脏话,最后输出前三名的结果。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20191223A0IUR200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券