专栏首页arxiv.org翻译专栏基于深层声学和语言学特征的口语文档主题分类

基于深层声学和语言学特征的口语文档主题分类

主题分类系统上的语言文档通常由两个模块组成:自动语音识别(ASR)模块将语音转换为文本和文本主题分类(TTC)模块,以预测来自解码文本的主题类。 在本文中,代替使用ASR成绩单,深声和语言特征的融合用于口语文档的主题分类。 更具体地,首先训练使用称位音素作为输出单元的传统基于CTC的声学模型(AM),并且在培训的AM中的线性音素分类器之前的层的输出被用作口语文档的深声学特征。 此外,这些深度声学特征被馈送到音素到字(P2W)模块,以获得深度语言特征。 最后,提出了一种局部多主题注意模块来融合这两种类型的主题分类。 在从交换机语料库中选择的子集上进行的实验表明我们所提出的框架优于传统的ASR + TTC系统,并达到ACC的3.13%。

原文题目:Topic Classification on Spoken Documents Using Deep Acoustic and Linguistic Features

原文:Topic classification systems on spoken documents usually consist of two modules: an automatic speech recognition (ASR) module to convert speech into text and a text topic classification (TTC) module to predict the topic class from the decoded text. In this paper, instead of using the ASR transcripts, the fusion of deep acoustic and linguistic features is used for topic classification on spoken documents. More specifically, a conventional CTC-based acoustic model (AM) using phonemes as output units is first trained, and the outputs of the layer before the linear phoneme classifier in the trained AM are used as the deep acoustic features of spoken documents. Furthermore, these deep acoustic features are fed to a phoneme-to-word (P2W) module to obtain deep linguistic features. Finally, a local multi-head attention module is proposed to fuse these two types of deep features for topic classification. Experiments conducted on a subset selected from Switchboard corpus show that our proposed framework outperforms the conventional ASR+TTC systems and achieves a 3.13% improvement in ACC.

原文链接:https://arxiv.org/abs/2106.08637

原文作者:Tan Liu, Wu Guo, Bin Gu

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【论文整理】NAACL2019+AAAI2019文本分类论文摘要

    链接:https://blog.csdn.net/choose_c/article/details/96690798

    zenRRan
  • 美团的OCR方案介绍

    近年来,移动互联、大数据等新技术飞速发展,倒逼传统行业向智能化、移动化的方向转型。随着运营集约化、数字化的逐渐铺开,尤其是以OCR识别、数据挖掘等为代表的人工智...

    机器学习AI算法工程
  • 重磅!!|“NLP系列教程01”之自然语言处理概要

    作者出该系列教程的目的是让大家能够掌握深度学习算法在自然语言处理中应用,同时也希望能够加深自己对自然语言处理的理解。

    ShuYini
  • A Survey on Text Classification: From Shallow to Deep Learning-文本分类大综述

    摘要。文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功,过去十年中该领域的研究激增。已有的文献提出了许多方法,数据集和评估指标,从而需要对这些内容进...

    Earnest lee
  • 2020最新文本综述:从浅层到深度学习(附PDF下载)

    文本分类是自然语言处理中最基本的任务。由于深度学习的空前成功,过去十年中该领域的研究激增。已有的文献提出了许多方法,数据集和评估指标,从而需要对这些内容进行全面...

    计算机视觉研究院
  • 语音识别——ANN加餐

    Dear junqiang: Hello. 昨天学习了语音识别的基础知识,早上起床马不停蹄写了BP网络后,把语音识别的相关方法也写出来咯。 自己也在科大讯飞的语...

    企鹅号小编
  • 深度学习在美团点评的应用

    前言 近年来,深度学习在语音、图像、自然语言处理等领域取得非常突出的成果,成了最引人注目的技术热点之一。美团点评这两年在深度学习方面也进行了一些探索,其中在自然...

    美团技术团队
  • 人人都能看懂的AIoT开发

    自2017年开始,“AIoT”一词便开始频频刷屏,成为物联网的行业热词。“AIoT”即“AI+IoT”,指的是人工智能技术与物联网在实际应用中的落地融合。当前,...

    刘盼
  • 腾讯 AI Lab 副主任俞栋:过去两年基于深度学习的声学模型进展

    本文摘取该论文主干部分进行编译介绍,希望为读者提供相关进展的概括性了解。

    腾讯AI实验室
  • 文本分类六十年

    文本分类是自然语言处理中最基本而且非常有必要的任务,大部分自然语言处理任务都可以看作是个分类任务。近年来,深度学习所取得的前所未有的成功,使得该领域的研究在过去...

    AI科技大本营
  • 就喜欢看综述论文:情感分析中的深度学习

    机器之心
  • 业界|科大讯飞语音识别框架最新进展——深度全序列卷积神经网络登场

    导读:目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort Term Memory),但是,这一系统存在训练复杂度高、解码时延高的问题,尤...

    AI科技评论
  • 深度全序列卷积神经网络克服LSTM缺陷,成功用于语音转写

    【新智元导读】目前最好的语音识别系统采用双向长短时记忆网络(LSTM,LongShort Term Memory),但是,这一系统存在训练复杂度高、解码时延高的...

    新智元
  • 13.深度学习(词嵌入)与自然语言处理--HanLP实现

    笔记转载于GitHub项目:https://github.com/NLP-LOVE/Introduction-NLP

    mantch
  • 信号为E时,如何让语音识别脱“网”而出?

    可以说,语音识别是人类征服人工智能的前沿阵地,是目前机器翻译、自然语言理解、人机交互等的奠基石。 

    腾讯智慧教育
  • 自然语言处理中的迁移学习(上)

    本文转载自公众号「哈工大SCIR」(微信ID:HIt_SCIR),该公众号为哈尔滨工业大学社会计算与信息检索研究中心(刘挺教授为中心主任)的师生的信息分享平台,...

    AI科技评论
  • 世界顶级大神综述深度学习 | Nature | 重温经典必读 | 论文精萃 |13th

    图丨Yann LeCun、Geoffrey Hinton、Yoshua Bengio和吴恩达

    用户7623498
  • 文本分类综述 | 迈向NLP大师的第一步(上)

    Github地址: https://github.com/xiaoqian19940510/text-classification-surveys

    NewBeeNLP
  • 【哈工大SCIR笔记】自然语言处理中的迁移学习(上)

    来源:Transfer Learning in Natural Language Processing Tutorial (NAACL 2019)

    zenRRan

扫码关注云+社区

领取腾讯云代金券