专栏首页AI科技评论微软IJCAI演讲PPT Part II:深度学习在统计机器翻译和对话上的应用

微软IJCAI演讲PPT Part II:深度学习在统计机器翻译和对话上的应用

前天我们翻译了微软关于NLP(自然语言处理)的PPT的概览部分,今天我们为大家带来了这份PPT的第二部分:同上次一样,我们将翻译内容放在图里的同时也写在了下面,大家可点开大图,也可按需自行查阅底部文字~

统计机器翻译(SMT)包括:

l 统计结果 l 来源渠道模型 l 翻译模型 l 语言模型 l 对数线性模型 l 评价指标:BLEU分数(越高越好)

基于短语的统计机器翻译(SMT)将中文翻译成英文

核心问题:针对什么建模?

l 针对词汇可能性 语言模型 LM/w 来源 l 基于短语的机器翻译 翻译/录制可能性 翻译 录制 l 基于二元的机器翻译 l ITG模型

神经网络在基于短语的SMT中的示例

l 神经网络作为线性模型中的组成部分 翻译模型 预压模型 卷曲神经网络的使用 联合模型 FFLM与原始词汇 l 神经机器翻译(NMT) 建立一个单一、大型的神经网络用来读取句子并输出翻译 RNN 编码-解码 长短时期记忆 联合学习顺序、翻译 NMT在WMT任务上超过了最好的结果

短语翻译模型虽然简单,但是解决了数据稀少的问题。

深度语义相似模型(DSSM)

l 计算语义相似性btw文本 l 针对自然语义处理任务的DSSM

DSSM 针对短语翻译模型

l 两个神经网络(一个是来源方向,一个是导向方向) 输入 输出 l 短语翻译分数=矢量点积 分数 为了缓解数据稀疏性,允许复杂的分数函数

N-gram语言模型

l 词语n-gram模型(如n=3) l 使用长历史的问题 稀少的事件:不可靠的可能性预估

RNN LMs需要返回到句子刚开始的时段,这也使得动态规划更加困难。为了给新词汇评分每一个解码器的状态都需要维持在h,通过传统的n-gram语境和最好的h来合并假设,进行重新组合。

模拟S需要3个条件:1.整个源句子或者均衡的源词汇 2.S作为词汇序列,词汇包,或者矢量代表 3.如何学习S的矢量代表?神经网络联合模型基于递归神经网络语言模型和前馈神经语言模型。

前馈神经语言模型

扩展前馈LM,使它包含周围有均衡源词汇的窗口。如果要对齐多个源词汇,选择正中间的位置;如果无需对齐,则继承最近目标词汇的队列。同时用队列在文本中进行训练;优化目标的可能性。

神经机器翻译,建立一个单独的,大型的NN,阅读句子并输入翻译。不像基于短语的系统需要很多零件模型组成。编码器-解码器基础方法是:一个编码器RNN进行阅读和将一个源句子编码到固定长度的矢量中,一个解码器RNN从编码器矢量中输出可变长度的翻译,最后编码器-解码器RNNs联合学习文本,优化目标可能性。

[Sutskever+2014]编码器-解码器模型

将MT当成普遍的序列到序列的翻译,阅读源头;累积隐状态;生成目标。其中<EOS>是停止递归进程的符号。在练习中,反向阅读源句子会导致更好的MT结果。在文本中进行训练,并使用SGD优化目标可能性。

潜能和困难

在理论上,RNN可以将所有过去输入的信息“储存”在h中,但在现实中标准的RNN无法捕获长距离的依赖。解决反向传播中梯度消失和爆炸和不稳定噪音问题的方法是:长的短期记忆。

长短期记忆细胞

RNN中一个LSTM单元的信息流的图解和数学公式。W`s是权重矩阵,虽然没有显示但可以从图中轻松的推理出来。

两个门的记忆细胞

图2:提出的隐激活函数。更新门z决定隐藏状态是否更新了新的隐藏状态h。复位门r决定先前的隐藏状态是否被忽略。

排列和翻译的联合学习

SMT编码器-译码器模型存在一个问题问题:压缩源信息到一个固定长度矢量中,使得RNN很难复杂长句子。注意力模型就是:编码输入句子到矢量队列,并在解码时选择矢量的子集

它类似的想法于[Devlin+14]。

[ Bahdanan+15]的注意力模型

编码器:双向RNN编码每一个单词和文本

解码器:寻找一系列与预测的目标词汇最相关的源词汇,并基于源词汇和所有先前生成词汇相关的文本矢量预测目标词汇。这样翻译长句子的表现接近最佳性能。

MSR`s神经对话引擎

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:李尊、章敏、陈圳

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-07-13

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 自然语言处理中的迁移学习(上)

    本文转载自公众号「哈工大SCIR」(微信ID:HIt_SCIR),该公众号为哈尔滨工业大学社会计算与信息检索研究中心(刘挺教授为中心主任)的师生的信息分享平台,...

    AI科技评论
  • 谷歌再获语音识别新进展:利用序列转导来实现多人语音识别和说话人分类

    从 WaveNet 到 Tacotron,再到 RNN-T,谷歌一直站在语音人工智能技术的最前沿。近日,他们又将多人语音识别和说话人分类问题融合在了同一个网络模...

    AI科技评论
  • 干货 | git 版本控制初学者指南

    AI 科技评论按,如果你还不熟悉版本控制,现在是开始学习的时候了。这是一份基本的 Git 指南,从 0 开始学习可以打下良好的基础。几乎可以肯定都是,Git 在...

    AI科技评论
  • spring security oauth2 资源服务/客户端无法正确获取权限

    当资源服务/客户端使用token-info-uri校验token时无法获取全部的授权权限,只能获取其中一个权限,使用user-info-uri则可以获取全部的授...

    路过君
  • Git 的 .gitignore 配置

    .gitignore 配置文件用于配置不需要加入版本管理的文件,配置好该文件可以为我们的版本管理带来很大的便利,以下是个人对于配置 .gitignore 的一些...

    ydymz
  • MySQL使用规范手册,程序员必知必会

    一个平台或系统随着时间的推移和用户量的增多,数据库操作往往会变慢;而在Java应用开发中数据库更是尤为重要,绝大多数情况下数据库的性能决定了程序的性能,如若前期...

    挨踢小子部落阁
  • UG-CAM点位加工与数控加工仿真软件的综合应用

    UG是世界上著名的功能强大,CAM软件技术最具代表性的软件,加工策略最丰富的数控加工、设计、编程软件。本文以一个一般孔数控加工工艺为例,论述UG编程操作的技巧以...

    UG数控编程
  • 2013-2014年国内PLM用户满意度调研完整版

    中国制造业20年来的辉煌发展不仅确立了中国在全球基础制造的地位,随着中国制造行业日益成熟市场化,整个行业的信息化水平不断提高,除了ERP的高度使用以外,另一样精...

    人称T客
  • 数据库 SQL 开发和操作行为规范

    预编译语句可以重复使用这些计划,减少 SQL 编译所需要的时间,还可以解决动态 SQL 所带来的 SQL 注入的问题;只传参数,比传递 SQL 语句更高效;相同...

    happyJared
  • 阿里发布IPO以来最亮眼财报:天猫力量体现经济体效应

    昨晚阿里巴巴发布了IPO以来最亮眼的财报:2017财年第四财季,收入同比增长60%,达到385.79亿元。全年收入为1582.73亿元,同比增幅56%超出预期,...

    罗超频道

扫码关注云+社区

领取腾讯云代金券