微软研究院Jianfeng Gao:基于深度学习的自然语言处理导论(课程,附PPT下载链接)

【导读】深度学习近几年在各领域的发展可谓是如火如荼,基于深度学习的自然语言处理方法也大受关注。本文介绍微软研究院Jianfeng Gao的一个暑期课程,课程主要讲解如何用深度学习做自然语言处理。课程主要分为四章:深度学习和自然语言处理(NLP)的介绍、用于文本处理的深度语义相似模型(DSSM)、用深度学习做机器阅读理解(MRC)和问答(QA)、基于深度学习的对话研究。相信通过学习该课程,你会对自然语言处理最新的方法有更深的理解,同时也希望能对您的科研或工作带来帮助。

An Introduction to Deep Learning for Natural Language Processing

Jianfeng Gao Microsoft Research

基于深度学习的自然语言处理导论

▌概要


在这个演讲中,我将简要介绍深度学习的历史及其在自然语言处理(NLP)任务中的应用。 然后我详细描述了最近为三个NLP任务领域开发的深度学习技术方法。 首先是一系列深度学习模型,用于对文本和图像之间的语义相似性进行建模,该任务是网络搜索排名,推荐,图像描述生成和机器翻译等应用的基础。 其次是开发一套模型,解决机器阅读理解和自动问答相关问题。 第三个是将深度学习应用在各种对话工具上,包括面向具体任务的聊天机器人(比如智能客服)和社交型的通用聊天机器人(Siri, 小冰)。

▌课程大纲


  • 第一章:深度学习和自然语言处理(NLP)引言

  • 深度学习简史
  • 用神经网络进行query分类
  • NLP任务中深度学习模型概述
  • 第二章:使用深度语义相似模型(DSSM)进行文本处理

  • 建模语义相似性的挑战
  • 什么是DSSM
  • 基于DSSM的Web搜索排名应用
  • 基于DSSM的推荐应用
  • 基于DSSM的自动图像描述生成和其他任务。
  • 第三章:用深度学习做机器阅读理解(MRC)和问答(QA)——MRC和QA的挑战

  • 对符号方法的简要回顾
  • 从符号到神经的方法
  • 最先进的MRC模型
  • 面向开放域(open-domain)的QA系统
  • 第四章:基于深度学习的对话

  • 开发开放领域聊天机器人的挑战
  • 使用深度强化学习来开发面向具体任务的聊天机器人
  • 基于神经对话引擎的社交型的通用聊天机器人

▌参考


第一章: Yih, He & Gao. Deep learning and continuous representations for natural language processing. Tutorial presented in HLT-NAACL-2015, IJCAI-2016.

第二章 (DSSM): We have developed a series of deep semantic similarity models (DSSM, also a.k.a. Sent2Vec), which have been used for many text and image processing tasks, including web search [Huang et al. 2013, Shen et al. 2014], recommendation [Gao et al. 2014a], machine translation [Gao et al. 2014b], and QA [Yih et al. 2015].

第三章 (MRC): We released a new MRC dataset, called MS MARCO; and have developed a series of reasoning networks for MRC, aka ReasoNet and ReasoNet with shared memory.

第四章 (Dialogue): We have developed neural network models for social bots trained on Twitter data [project site] and task-completion bots [Lipton et al. 2016;Bhuwan et al. 2016] trained via deep reinforcement learning using a user simulator.

▌作者简介:



Jianfeng Gao Microsoft Research

Jianfeng Gao is Partner Research Manager in Deep Learning Technology Center (DLTC) at Microsoft Research, Redmond. He works on deep learning for text and image processing and leads the development of AI systems for dialogue, machine reading comprehension (MRC), question answering (QA), and enterprise applications. From 2006 to 2014, he was Principal Researcher at Natural Language Processing Group at Microsoft Research, Redmond, where he worked on Web search, query understanding and reformulation, ads prediction, and statistical machine translation. From 2005 to 2006, he was a research lead in Natural Interactive Services Division at Microsoft, where he worked on Project X, an effort of developing natural user interface for Windows. From 1999 to 2005, he was Research Lead in Natural Language Computing Group at Microsoft Research Asia. He, together with his colleagues, developed the first Chinese speech recognition system released with Microsoft Office, the Chinese/Japanese Input Method Editors (IME) which were the leading products in the market, and the natural language platform for Windows Vista.

参考链接:

http://grammars.grlmc.com/DeepLearn2017/coursedescription/

https://www.microsoft.com/en-us/research/people/jfgao/

https://www.microsoft.com/en-us/research/publication/introduction-deep-learning-natural-language-processing-tutorial-deeplearning2017-summer-school-bilbao-2/#

请关注专知公众号(扫一扫最下面专知二维码,或者点击上方蓝色专知),

  • 后台回复“MSRANLP” 就可以获取 课程全部PPT下载链接~

▌PPT



PPT详细内容如下:

本文分享自微信公众号 - 专知(Quan_Zhuanzhi)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-01-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据派THU

Github近期最有趣的10款机器学习开源项目

? 来源:PaperWeekly 本文共900字,建议阅读6分钟。 本文为你罗列近期Github上十大有趣的机器学习开源项目。 -01- Face Rec...

38060
来自专栏程序生活

Gensim实现Word2Vec的Skip-Gram模型简介快速上手对语料进行分词使用gensim的word2vec训练模型

简介 Genism是一个开源的Python库,用于便捷高效地提取文档中的语义话题。它用于处理原始的、非结构化的电子文本(“纯文本”),gensim中的一些算法,...

50940
来自专栏企鹅号快讯

2017年度盘点:Github上十大有趣的机器学习项目

目录: 1 AlphaZero-Gomoku 2 OpenPose 3 Face Recognition 4 Magenta 5 YOLOv2 6 MUSE 7...

67580
来自专栏SIGAI学习与实践平台

理解计算:从根号2到AlphaGo番外篇——眼见未必为实--漫谈图像隐写术

传递秘密消息的历史非常悠久,在公元前500年左右的波希战争时期,就有将奴隶的头发剃掉,然后在头皮上刺上字,等奴隶的头发张长后,将这个人派去传递消息,一次消息传递...

26920
来自专栏思影科技

基于局部脑血流量和工作记忆表现预测2年内血压变化

贝叶斯推荐你关注思影科技 来自美国匹兹堡大学精神病与心理学部的J.Richard Jennings等人在Hypertension杂志上发文指出,基于ASL成像的...

34560
来自专栏机器学习养成记

《无问西东》豆瓣短评分析

《无问西东》讲述了四代人清华人,在矛盾与期待中不断找寻自我、砥砺前行的故事。上映后得到了广泛的关注,也引发了强烈的讨论。本文首先通过爬虫技术,从豆瓣上获得相关短...

38490
来自专栏pangguoming

JAVA智能设备基于OpenGL的3D开发技术 之AABB碰撞检测算法论述

摘要:无论是PC机的3D还是智能设备应用上,碰撞检测始终是程序开发的难点,甚至可以用碰撞检测作为衡量3D引擎是否完善的标准。现有许多3D碰撞检测算法,其中AAB...

466100
来自专栏思影科技

EEG和fNIRS同步研究揭示年龄和神经反馈对运动想象信号的影响

注释:这篇文章相当长,请耐心看完。 来自德国奥尔登堡大学心理学部的Catharina Zich等人在Neurobiology of Aging杂志上发表了一项基...

42560
来自专栏CreateAMind

中科院说的深度学习指令集diannaoyu到底是什么?寒武纪4篇论文的解读--下

2016年3月,中国科学院计算技术研究所陈云霁、陈天石课题组提出的深度学习处理器指令集DianNaoYu被计算机体系结构领域顶级国际会议ISCA2016(Int...

32140
来自专栏媒矿工厂

基于机器学习技术的非迭代内容自适应分布式编码

分布式编码是缩短内容准备云工作流程的周转时间的一种有效方法。当前已经提出了内容自适应比特分配的策略以保证存储和传输的效率。但这些方法中的许多方法本质上倾向于...

20430

扫码关注云+社区

领取腾讯云代金券