2019腾讯犀牛鸟精英人才培养计划课题介绍（七）—自然语言处理

腾讯高校合作

发布于 2019-01-10 23:20:36

1.1K0

发布于 2019-01-10 23:20:36

文章被收录于专栏：腾讯高校合作

“

精英人才培养计划是一项校企联合人才培养项目，入选学生将受到业界顶尖技术团队与高校导师的联合指导及培养。培养期间，学生将获得3个月以上到访腾讯开展科研访问的机会，基于真实产业问题及海量数据，验证学术理论、加速成果应用转化、开阔研究视野。同时项目组将引进沟通技巧、商业分析、创新思维等定制课程，定期举办线上线下交流活动，全面提升学生综合素质。入选学生还将获得线上实名社群平台“十分精英圈”的在线访问权限，结识志同道合的科研伙伴，获取业界信息及资源。

”

今年共有10大方向

81个子课题供大家选择

总有一个适合你

下面让我们一起来看看第七个方向吧

自然语言处理

01

7.1 文本理解（地点：深圳）

研究和探索基于语义分析和知识推理的深度文本理解技术，包括但不限于：1.新型的文本理解模型架构；2.针对社交文本的语言理解技术；3.引入常识及外部背景知识的语言理解模型；4.知识图谱的表示及推理。以及以上理解技术在开放域聊天等场景中的应用。

导师简介

腾讯专家研究员，博士毕业于清华大学计算机科学与技术系。目前主要研究方向为语义理解和智能人机交互。曾在ACL、EMNLP、WWW、SIGIR、CIKM、AAAI 等国际会议上发表论文20 多篇。曾多次担任ACL、EMNLP、WWW、AAAI 等会议的程序委员会委员以及TOIS、TKDE 等期刊的审稿人。

02

7.2 对话系统及文本生成（地点：深圳）

对话系统的研究课题旨在提出新的模型算法以提高开放领域闲聊对话系统的回复质量，包括但不仅限于：1.结合检索模型和生成模型，提高回复内容信息的多样性；2.多轮对话中，如何保持对话的逻辑性及话题延展性等问题。

文本生成的研究课题提出新的模型算法以提高开放领域闲聊对话系统的回复质量，包括但不限于1.如何进行长文本的生成：例如故事生成、新闻生成等；2.可控的文本生成：给定情感、性格等模型生成能够客观反映给定条件的文本；3.长文档的生成式摘要：如何考虑对长文档的建模，如何生成多句摘要等。

导师简介

腾讯专家研究员，博士毕业于中国科学技术大学。目前主要研究方向为对话交互和文本生成。曾在EMNLP、WWW、KDD 等国际会议上发表多篇论文。

03

7.3 机器翻译（地点：深圳）

本课题的主要研究方向是如何缓解神经网络机器翻译模型最核心的忠实度问题，包括但不限于探索新型网络结构和训练框架、基于大规模（含噪声、多领域）语料上的模型学习、改善实体翻译及低频词翻译等。本课题同时探索交互式机器翻译，从而使当前神经网络机器翻译系统更好地为真实用户服务。

导师简介

腾讯专家研究员，博士毕业于中科院计算所。主要研究方向为机器翻译和基于深度学习的自然语言处理，在ACL、TACL、EMNLP、AAAI、IJCAI等国际顶级会议和期刊发表论文四十余篇，并担任EMNLP2018、NAACL2019领域主席，以及AAAI2019高级程序委员会委员。

04

7.4 面向少数民族低资源和跨领域的神经机器翻译系统研究（地点：北京）

除了中、英文等资源丰富语言，世界绝大多数语言都缺乏大规模平行语料库。因此，如何充分利用现有数据来缓解资源匮乏问题，成为神经机器翻译重要研究方向。业务的机器翻译应用场景，大多都集中在“一带一路”的小语种上，而小语种就面临低资源问题。

另一个问题则是跨领域，需要域适应技巧。在To B场景中，可能会经常接到诸如法院、检察院、国家安全、游戏、短视频等垂直领域的业务，所以利用通用模型进行跨领域的自适应研究是非常有必要的。

具体研究内容： 1.在有少量平行语料的情况下，如何利用单语语料，通过半监督的方式进行学习。 2.利用中间语言的方式，通过多任务学习的方式进行学习和单语语料，通过完全无监督的方式进行学习。 3.利用已有高资源的双语数据，通过迁移学习的方式，学习低资源或者零资源的NMT系统。

导师简介

腾讯专家研究员，博士毕业于中科院自动化所。在各类国际语音会议和刊物中发表论文17篇，美国专利10余篇；获得了世界机器翻译大赛汉英项目第二名和CWMT中文到少数民族机器翻译大赛总成绩第一名等多项成绩。

05

7.5 中文通用语言表示（地点：深圳/北京）

中文字词表义能力强，形式多变，这给中文NLP带来极大的挑战。业务场景中存在大量变异、对抗的中文文本，如何有效地处理建模这些文本是一个很重要的问题。具体研究内容：

低层预训练+高层任务调优的形式是目前NLP的主流研究方向之一。

1.从字、形、音等层面建模变异、对抗文本。 2.基于底层特征，在变异对抗文本上构建通用有效的低层模型。 3.基于低层通用表示模型，调优任务驱动的高层模型。

导师简介

导师1：

腾讯专家工程师，意大利机器学习博士毕业。博士论文发表于ACL2012（Long Paper），一直致力于机器学习在实际业务场景中的落地应用，具体包括电商、资讯、O2O及信息安全等方面。

导师2：

腾讯高级研究员，博士毕业于浙江大学计算机学院，主修计算机科学与技术，在博士期间主要研究为实体链接，在各类刊物和会议发表论文数篇。目前主要从事中文通用语言模型表示的相关工作。

导师3：

腾讯高级研究员，博士毕业于中国科学院自动化研究所，主修自然语言处理，博士期间主要研究为文本分类、实体抽取、关系抽取等，在自然语言处理相关会议和期刊发表论文数篇。目前主要从事文本分类工作。

06

7.6 面向开放域的问答技术研究（地点：北京）

对话系统的研究课题旨在提出新的模型算法以提高开放领域闲聊对话系统的回复质量，包括但不仅限于：1.结合检索模型和生成模型，提高回复内容信息的多样性；2.多轮对话中，如何保持对话的逻辑性及话题延展性等问题。

文本生成的研究课题提出新的模型算法以提高开放领域闲聊对话系统的回复质量，包括但不限于1.如何进行长文本的生成：例如故事生成、新闻生成等；2.可控的文本生成：给定情感、性格等模型生成能够客观反映给定条件的文本；3.长文档的生成式摘要：如何考虑对长文档的建模，如何生成多句摘要等。

导师简介

导师1：

腾讯专家研究员，中科院理论物理研究所统计物理专业博士。当前负责机器学习与自然语言理解相关的技术和产品应用，包括对话系统、阅读理解、机器翻译等方向，在ACL、NeurIPS等顶会上发表过多篇文章。

导师2：

腾讯高级研究员，博士毕业于清华大学计算机系。当前负责自然语言处理相关的技术和应用工作，研究兴趣包括问答、对话、机器翻译等，是国内率先将深度学习方法引入机器翻译的研究人员之一，发表NLP顶会论文多篇，并多次担任相关会议审稿人。

07

7.7 增强学习在自然语言处理中的应用（地点：北京）

增强学习技术在处理具有复杂交互或依赖的自然语言处理任务中具有很大的应用潜力，本项目将依托于真实的产品场景和数据，探索增强学习在对话、问答、文本生成等方向的应用。

导师简介

导师1：

腾讯专家研究员，中科院理论物理研究所统计物理专业博士。当前负责机器学习与自然语言理解相关的技术和产品应用，包括对话系统、阅读理解、机器翻译等方向，在ACL、NeurIPS等顶会上发表过多篇文章。

导师2：

腾讯高级研究员，中科院计算技术研究所博士，目前负责自然语言前沿技术的研究和落地工作，主要研究方向包括机器翻译系统、自然语言处理技术、深度学习模型等，在ACL、IJCAI、AAAI等顶会上发表过多篇文章，出版译著《Python自然语言处理》。

08

7.8 人性化对话系统研究（地点：北京）

End-to-end 对话系统是近来NLP研究的一个热点。本项目希望有效地利用结构化及非结构化知识，针对特定主题和态度与情感设定，做有意义的对话生成。

导师简介

腾讯专家研究员，美国纽约州立大学布法罗分校博士。当前负责对话机器人和开放的语义平台相关的技术与产品，团队在2018 DSTC7（对话系统技术竞赛）获得一个第一名，一个第二名的成绩，在ACL等顶会上发表过多篇文章。

09

7.9 基于游戏知识图谱的领域问答系统（地点：深圳）

基于知识图谱的问答系统是当前的研究热点，其挑战点包括： 1、如何理解问题，并转换特定表示；2、如何将问题映射为结构化查询；3、查询结果生成自然语言答案。项目涉及的技术包括自然语言处理、知识图谱、机器学习。

导师简介

腾讯高级研究员，博士毕业于中国科学技术大学基础数学专业。目前研究游戏领域的数据挖掘技术与应用，通过用户画像分析，个性化服务等为用户提供更好的服务体验，为业务提供更有价值的运营支撑。

10

7.10 基于深度学习的文章质量理解（地点：广州）

学生会接触亿级的微信生态的文章，从Word2vector的方向入手，分层次用深度学习的方法去产生文章的Vector，该向量能对文章的质量有明确的映射。 Tensorflow、Pytorch是主要的工具。

导师简介

腾讯高级研究员，博士毕业于美国斯蒂文斯理工（机器学习方向）。并在Uppen从事1年智能推荐的博士后工作。发表15篇以上学术论文。曾在暑期2个月指导一个实习生发表了一篇人工智能顶会文章（AAAI）。

11

7.11 资源稀缺环境下的机器翻译方法研究（地点：北京）

双语对齐数据（Bilingual Parallel Corpus）是机器翻译特别是神经机器翻译的基础资源。但是大量语种的数据资源的积累相对较弱，缺乏训练高质量神经机器翻译系统所需规模的双语对齐数据。本研究项目将探索在资源稀缺场景下，如何提升翻译质量的方法，包括新模型设计，双语资源、单语数据、枢轴语等数据资源利用策略等。

导师简介

腾讯专家研究员，博士毕业于中国科学院计算技术研究所，主要研究兴趣为机器翻译、自然语言处理、对话系统等。在ACL、EMNLP、AAAI等顶级国际学术会议或期刊论文发表10余篇，作为主要参与人员参与973、863、自然科学基金等项目近十项。

12

7.12 面向对话系统中自然语言理解的多任务学习算法研究（地点：北京）

在对话系统中，用户会话的类型比较复杂，通常可以分为任务型会话、问答型会话、闲聊型会话等。针对不同类型的会话的自然语言理解技术既相关但又相对独立。本项目拟研究对话系统中自然语言理解的多任务学习(Multi-task Learning)算法，以1、利用意图识别、槽位填充、问答匹配等相关学习任务之间的信息来提升它们的表现；2、利用数据相对丰富的任务，解决数据较少任务的冷启动问题。

导师简介