Google之前就推出适用于Pixel手机的新型录音应用程序Recorder,这个录音程序不只可以将语音转译成文本,还可以可视化地显示声音类型的分类,另外,在录音结束用户要输入标题时,Recorder也会提供建议标签。这些功能,都是Google应用设备上机器学习技术开发,现在披露了背后的细节。
将语音转录成文本的功能,其应用的技术在早前就已经趋于成熟,Recorder可以使用设备上自动语音识别模型,即时地转译语音,Google提到,除了增加模型稳定度,使其能可靠地转录数小时的录音之外,他们还将单词对应到时间戳以索引对话,用户可以点击转录出来的单词,并且从对应时间点开始播放录音,用户也能搜索单词,并精确地跳到录音提到该单词的时间点。
虽然显示录音的文本记录,可让用户搜索特定单词,但Google提到,以可视化标示特定时刻或是声音的录音段落,对于长时间的录音来说,用户能更容易进行搜索。因此Recorder会将声音以波型表现,并且用不同颜色来表示不同的声音类型,像是狗叫声或是乐器演奏就会以不同的颜色区分。
实际情况通常是同一个时间点,Recorder可能会录到多种声音,Google会将波型以最具代表性的声音颜色着色。Recorder识别声音类型的方法,会侦测部分重叠的960微秒声音音框(Frame),来判断50微秒区间的声音类型,Google提到,以较小50微秒偏移量分析处理960微秒窗口中的内容,不容易出错且能精确的找出窗口开始时间与结束时间。
另外,当音频录制完成之后,Recorder会挑选最具记忆性的内容作为建议标签,用户可以快速地应用这些标签撰写成标题。而为了能够在音频录制结束之后,马上能够提供建议标签,Recorder在转录音频的时候,便会即时进行分析。
Recorder会计算单词出现的次数以及在句子中的语法作用,并且大写专有名词,接着会使用词性标记程序,这是一个根据句子文法标记每个单词的模型,来侦测用户更容易记住的一般名词与专有名词,Recorder以对话数据以及字词频率和特性等文本特征训练决策树,计算单词和双字词分数,在滤掉禁用词与脏话,最后输出前三名的结果。
领取专属 10元无门槛券
私享最新 技术干货