专栏首页mathorDeep Learning for Human Language Processing_Intro

Deep Learning for Human Language Processing_Intro

HLP研究的内容

Human Language Processing研究的内容根据输入输出的不同,可以分为如下6种

从左到右,从上到下依次是

  • ASR(Speech2Text)
  • TTS(Text2Speech)
  • Voice Conversion(Speech2Speech)
  • Translation、Chat-Bot、Summarization、QA(Text2Text)
  • Speaker Recognition(Speech2Class)
  • Sentiment Analysis(Text2Class)

Speech2Text

语音转文字最典型的应用就是语音识别(Speech Reconition),也叫做Automatic Speech Recognition,简称ASR。早期的语音识别,往往采用基于HMM模型的算法,加上声学模型(Acoustic Model),语言模型(Language Model)和 词典(Lexicon)。虽然经过多年的研究,效果不错,但是算法流程复杂,模型很大,难以适应目前物联网发展中嵌入式AI对语音识别性能的要求

随着深度学习的发展以及轻量网络模型的推陈出新,现在的ASR往往是采用Seq2Seq方法,训练一个模型直接end-to-end得到最终结果。流程简单,效果逐年提升,而且模型可以做得很小,使得能够放置到手机、智能家居或者是物联网设备中

世界上的语言有5000多种,每种语言都可以拿来做语音识别。 因此按照语言的不同,又可以分为中文语音识别(Chinese ASR)、英文语音识别(English ASR)、西班牙语识别(Spanish ASR)等等。这些语言的差异,在于组成语句的颗粒不一样:比如中文由4000+个汉字组成,汉字是组成句子的最小单位。英文的最小单位为26个英文字母,字母组成单词,单词组合成句子。当然,我们也可以做一个通用的语音识别系统,即输入任何一句话,他都要能输出对应的文本,这就是通用语音识别(General ASR)所追求的目标,不过目前看来,要实现这个目标,还为时尚早

Text2Speech

文字转语音最常见的应用就是语音合成(Text-to-Speech Synthesis)。这样的应用在生活中比比皆是。一个能够和人类互动的robot,既要能够听懂人类说的话(ASR), 也要能够说出人类能够听得懂的话(TTS)。 中间Text到Text处理的过程就是自然语言处理(NLP)

现在做语音合成,也是采用Seq2Seq模型,和语音识别在模型的选择上并没有本质的不同,依然是深度学习end-to-end硬train一发,就完事了

Speech2Speech

该类任务有以下3种典型的应用场景

  • Speech Denosing:语音去噪。将语音中的噪声部分去除,保留比较干净的信息
  • Speech Separation:典型的场景如嘈杂的环境中有多人同时说话,通过语音分离,将每个人说的话,分别提取出来
  • Voice Conversion:声音转换,例如柯南的变声器

Speech2Class

输入一段语音信号,输出一个类别。该类任务有以下三种典型的应用

  • Speaker Recognition:语音识别,即依据你说话的声音来判断是不是同一个人,或者是哪一个人。类似于Face Recognition,主要用在门禁、身份认证等领域
  • Keyword Spotting:关键词检测,通常用在工业控制或者智能家居中;需要检测出语音中是否含有预先定义的几个关键词,如智能音响需要能够检测出turn on/turn off/volumn up/volumn down等少数几个关键词
  • WakeUp words detect:一种特殊的Keyword Spotting的情形, 只需要判断语句中是否含有预先定义的唤醒词, 如“hey Siri”,"Alexa", "OK Google"

Text2Text

这类任务就是NLP主要研究的领域,应用的方向非常之多。输出的内容含义不同,就可以实现不同的功能

可以看到,这类任务的应用包括自动翻译、文本摘要、聊天机器人、阅读理解、智能问答等等,甚至可以做语法剖析、词性标注; 虽然任务种类很多,但要说到模型选择,依然是那个你最熟悉的Seq2Seq Model

Text2Class

这类任务的应用也非常广泛,举例如下

  • 垃圾邮件分类
  • 情感分析
  • 文章主题分类

各类任务之间有什么联系?

可以看到,任务之间有相互对应的关系,比如Text2Speech和Speech2Text就是一对互相关联的任务。当Word2Vec诞生之后,以及各种各样Pre-trained Model的出现,使得Text和Speech在表达形式上达成了统一,都可以看作是二维matrix. 因此,抛开信号在客观世界中的表现形式,所有的任务其实都是Matrix2Matrix之间的转化,都可以采用Seq2Seq的supervised model来处理

另外,对于输入为Text的三类任务,Pretrained-Model使得输入的处理变得规范统一,BERT家族的兴旺正是对于Word2Vec思想发扬光大,追求更好的单词向量表示的明证

而对于输出为Text的两类任务,在词语输出的顺序上研究人员存在分歧,这也导致出现了两类方法,Autogressive和Non-autoregressive。比方说下面的例子,非自回归会觉得应该先生成这个句子最重要的部分,也就是"dream"这个单词,然后模型会考虑谁是"dream"的主体,因此会生成"I",之后模型会考虑"I"和"dream"之间的关系是什么,因此会生成"have",最后模型考虑我有几个梦想?因此就会输出"a"

HLP领域还有哪些值得研究的课题

Unsupervised Learning

实际应用中,采用监督学习的方法,收集已经标注好的数据往往是非常困难的,因此是否可以从中进行学习是一个非常有价值的研究方向

以Voice Conversion为例:假如采用监督学习的思路,用Seq2Seq模型来进行处理,我们需要获取SpeakA和SpeakB 关于同一个text的speech,但实际上我们难以获取到这样的输入对。我们能采集到的是Speak A的语音集合和Speak B的语音集合, 这两个集合之间并没有一对一的对应关系

Few Shot Learning / One Shot Learning

同样以Voice Conversion为例,如果我们在实际生活中,只能获取到Speaker A或者是Speaker B很少的语音信息,甚至只有一条语音记录,那又该如何处理

Adversarial Attack

Adversarial Attack在图像领域非常常见,最有名的就是GAN网络。而在HLP中,语音、文字也是可以做到的,举例来说:我们可以设计一个Discriminator判断一段声音是否是机器合成的

系统鲁棒性的追求,与欺诈的对抗是一个永不过时、永不停歇的课题

Explainable AI

到底机器学到了什么?机器能够正确得回答问题,他是如何做到的?

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Human Language Processing——Beyond Tacotron

    acotron 并没有解决所有的问题,有时候它合成出的发音会出错。这一次我们会先讲一讲 Tacotron 以外的一些模型。这些模型是基于 Tacotron 的变...

    mathor
  • Tacotron论文阅读

    Tacotron是谷歌于2017年提出的端到端语音合成系统,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生...

    mathor
  • AutoEncoder

    自编码AutoEncoder是一种无监督学习的算法,他利用反向传播算法,让目标值等于输入值。什么意思呢,下面举个例子

    mathor
  • 如何做好游戏内实时语音体验

    本文即针对移动游戏环境下实时语音所面对的挑战,介绍一些语音预处理、流媒体协议等通用的解决方案。

    腾讯游戏云
  • 语音生成效果评价不再逐句进行:谷歌提出长文本语音生成评价新系统

    自动生成的语音无处不在,从驾驶中的人声导航,到手机上的虚拟助手,还有家中的智能扬声器设备。虽然为了使生成语音更加逼真而进行了大量研究与实验,例如为低资源语言(l...

    机器之心
  • 吴恩达晒妻又晒车,顺便宣布了一个重大消息

    昨日晚间(5 月 7 日),吴恩达在 Twitter 上晒出了自己和妻子 Carol Reiley 的合照,并表示接下来会有重大消息宣布。(这个狗粮撒的猝不及防...

    AI科技大本营
  • 干货 | 腾讯云智能语音行业落地探索与实践

    倪捷,腾讯云高级产品经理。北京邮电大学硕士。现在腾讯云大数据与人工智能产品中心AI应用产品组担任高级产品经理,负责智能语音相关AI产品,拥有互联网、金融等行业人...

    携程技术
  • 倪捷:智能语音扩展数字化服务

    广义上来讲智能语音技术有各种各样的定义,以上是常见的一些热门的场景。语音识别,刚才罗老师也分享了部分内容。语音合成是文字变成语音,这部分我们后面会详细展开。再往...

    云加社区技术沙龙
  • 【玩转腾讯云】二.基于CVM服务器轻松部署PostgreSQL数据库

    ②选择自定义配置——计费模式为“按量付费”——地域选择“北京”——可用区选择“随机可用区”——网络选择“默认”即可

    一只特立独行的兔先生
  • Maven聚合项目的创建

    点击next修改名称完成构建 这里我们把a-first当做启动项目,需要在maven中加入:

    Dream城堡

扫码关注云+社区

领取腾讯云代金券