前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Google AI 将高性能 CAP12 模型的尺寸缩小 6 倍至 100 倍

Google AI 将高性能 CAP12 模型的尺寸缩小 6 倍至 100 倍

作者头像
代码医生工作室
发布2022-04-14 15:31:33
5830
发布2022-04-14 15:31:33
举报
文章被收录于专栏:相约机器人相约机器人

近年来,自动语音识别(ASR)等词汇任务取得了重大进展。然而,机器系统难以理解非语言特征,例如语气、情绪或说话者是否戴着面具等。机器听力中最具挑战性的困难之一是弄清楚如何理解这些元素。此外,前沿成果通常来自对私人数据进行训练的超大型模型,这使得它们无法在移动设备上执行或公开发布。

CAP12 是使用自我监督在 YT-U 训练数据集上训练的 600M 参数模型的第 12 层,发表在“使用自我监督一致性器的通用副语言语音表示”中,发表于 ICASSP 2022。

尽管早期的结果通常是特定于任务的,但 CAP12 模型在副语言基准测试中几乎击败了所有先前的结果,有时甚至大幅领先。它是紧凑的、高性能的和公开可用的。使用正确大小的音频位和几种架构类型的知识蒸馏来训练可以在移动设备上运行以构建 TRILLsson 的更小、更快的网络。

超大型自监督 CAP12 模型使用 YT-U 训练数据集进行训练。YT-U 数据集是一个 9 亿多小时的音频集合,包含各种主题、背景设置和扬声器声学属性。Wav2Vec 2.0 自我监督训练范式与超大型 Conformer 模型集成,以解决利用无标签原始数据的挑战。将 YT-U 的使用扩大到一些曾经训练过的最大模型尺寸,包括 600M、1B 和 8B 参数,因为自训练不需要标签。

Conformer Applied to Paralinguistics 是 600M 参数 Conformer 模型的名称,无需密切关注 (CAP)。

在六个超大型模型的所有中间项中,第 12 层(CAP12)大大优于先前的表示。非语义语音 (NOSS) 基准用于评估大约 300 个候选副语言语音表示的质量。NOSS 基准是一组经过充分研究的副语言语音任务,例如语音情感识别、语言识别和说话人识别。这些任务专注于语音的副语言成分,这需要评估语音特征 1 秒或更长时间,而不是词汇特征,后者需要 100 毫秒或更短的时间。

添加了来自 Interspeech 2020 的戴口罩任务、来自 ASVSpoof 2019 的虚假语音检测任务,以及对基准 (IEMOCAP) 的额外语音情感识别工作。CAP12 甚至比先前的表示更有价值,并且可以使任务多样化。在五个副语言工作中,时间平均 CAP12 表示的简单线性模型击败了复杂的、特定于任务的模型。这是出乎意料的,因为可比较的模型经常使用其他形式(视觉和语音或文本和语音)。此外,CAP12 在涉及情绪识别的活动中表现特别好。

除了在构音障碍检测任务中嵌入一个监督网络外,CAP12 嵌入在所有其他工作中都击败了所有其他嵌入。知识蒸馏用于训练更简单、更快速且对移动设备友好的架构。我们的研究中都使用了 EfficientNet、音频频谱图转换器 (AST) 和 ResNet。这些模型有各种形状和大小,它们可以处理固定长度和任意长度的输入。EfficientNet 是对视觉模型进行神经架构搜索的结果,以发现既高性能又高效的模型结构。带有音频输入的变压器称为 AST 模型。ResNet 是一种标准设计,已在各种模型中展示了出色的性能。

尽管是 CAP12 的 1%-15%,并且仅使用 6% 的数据进行了训练,但引入的模型的性能达到了 90-96%。令人惊讶的是,不同形式的建筑在不同的尺度上都表现得更好。ResNet 模型在低端优于 EfficientNet 模型,AST 模型优于 AST 模型。

有两种生成学生目标的技术可用:全局匹配和局部匹配。全局匹配通过为整个音频剪辑构建 CAP12 嵌入来创建蒸馏目标,然后要求学生仅使用一小部分音频(例如,2 秒)来匹配目标。本地匹配需要学生网络在学生可见的音频区域上达到平均 CAP12 嵌入。局部匹配优于全局匹配。

副语言数据的分布以一种意想不到的方式呈现双峰。中间表示在副语言信息中逐渐上升,减少,然后再次增加。最后将这些信息丢失到 CAP 模型的输出层,该模型在 500 ms 输入段和两个全输入 Conformer 模型上运行。令人惊讶的是,这种趋势也可以在基于视网膜图片训练的网络的中间表示中找到。

更小、更快的副语言语音模型将开辟新的语音检测可能性、文本到语音生成和用户意图解释。相应地,较小的模型将更容易理解,使研究人员能够更好地掌握语音的哪些组成部分对副语言学至关重要。

论文:

https://arxiv.org/pdf/2110.04621.pdf

参考:

https://ai.googleblog.com/2022/03/trillsson-small-universal-speech.html

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2022-03-15,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档