杨杰博士莅临我校，并做了报告：Recent Advances in Sequence Labeling

zenRRan

发布于 2019-11-19 22:46:39

9870

发布于 2019-11-19 22:46:39

文章被收录于专栏：深度学习自然语言处理

之前了解杨杰博士是从导师那里得知的，模模糊糊，当时也只是知道这个名字而已，谁知道几个月后自己竟然还能作为迎宾亲自去迎接。O(∩_∩)O哈哈~ 路上交流了很多，发现大牛都是这么谦虚，平易近人的吗？

好啦步入正题，以下内容为事实和自己的部分理解。

简历

杨杰博士，刚刚毕业于新加坡科技设计大学，获计算机科学博士学位；2014年取得中国科学院大学硕士学位；2011年获重庆大学电子工程和物理学双学士学位。本科和研究生都几乎没有接触编程，可以说博士是用了四年时间入门到NLP大牛的华丽转身！现在计划去哈佛读博士后。

博士期间曾在牛津大学量化金融研究所（OMI）从事访问研究。主要研究领域为深度学习与自然语言处理，包括中文分词、命名实体识别、金融新闻分析和医疗文本分析等具体方向。是ACL / COLING / AAAI等学术会议程序委员会成员、是中国计算机协会中文信息技术专委会青年工作委员会委员。曾获得COLING最佳论文奖，ACL最佳演示论文提名，被评为ACL 2018 和 COLING 2018杰出审稿人（Outstanding Reviewer）。主导开发了NCRF++ / YEDDA 等多款自然语言处理开源工具，Github收藏量超过1200。

github：https://github.com/jiesutd

报告内容

标题：

Recent Advances in Sequence Labeling

序列标注的最新进展

大致分为4个内容：

Introduction（简单介绍序列标注任务）
Neural Sequence Labeling Models（回顾往年的序列标注模型）
Chinese Sequence Labeling Models（提出自己的模型）
Toolkits for Data Annotation and Neural Models（提出自己的两个工具包）

Introduction

Sequence Labeling序列标注：

比如上述的例子，给一句话中的每个词进行标注，标注内容为X-Y。其中X为B（begin）或者I（insert），B表示开始，I表示跟前面的是一起的，这样表示一个完整的序列，单个词用B，多个词用B I I...。Y可以为ORG（organization），PER（person），当然也可以由LOC（local）等。

序列标注运用十分广泛！比如

Word Segmentation 分词

Part-of-speech（POS）tagging词性标注

Named Entity Recognition （NER）命名实体识别

Chunking, CCG Supertagging, etc

Neural Sequence Labeling Models

基本的序列标注神经网络模型：

之后的一些改进：

将word（词）和char（字母）同时作为特征输入，中间的网络可以用CNN，LSTM，解码端为Softmax or CRF。

对于这方面的论文，做了一下总结：

Training Improvement 训练的改进

Joint training with language model 联合训练

Training the sequence labeling with joint training the language model，Marek Rei, ACL 2017. Liyuan Liu, et, al. AAAI 2018

Adversarial training 对抗训练

Joint training models in multi-criteria datasets, using adversarial learning to integrate shared knowledge，Xinchi Chen et,al. ACL 2017.

Pre-training Improvement 预训练改进

Pretrain Word/Char Embeddings 预训练词 / 字 Embedding

Pretrain word/char embeddings using external information，Jie Yang et,al ACL 2017, Hao Zhou et, al EMNLP 2017.

Pretrain LSTM (ELMo) 预训练LSTM

Pretrain bidirectional LSTM representation in a large-scale language model data. Peters, et, al NAACL 2018 (best paper)

歧义

Chinese Sequence Labeling Models

对于中文来说，不像英文一样一个单词就是一个词，比如

基于词的NER：

基于字的NER：

中文的基于字的效果要比词的效果好，这样不会因为词金标原本的错误导致最终训练效果的不佳，而如果基于字的话，就不会有这样的顾虑。

比如

会有歧义。

这样，引出了自己提出的新的模型 Lattice LSTM ：

每一个路径连接一个可能性词的首尾

用之前的传统模型和自己的模型对对比

Character-based model

Word-based model

Lattice model

该模型是在Standard LSTM上改进的，先看看标准的模型们：

RNN

LSTM

Coupled LSTM

而该模型就是在Coupled LSTM上进行了稍微的修改

其中X^w_{b, e}是匹配词（比如这里的市长等）的embeddings

正则化所有的门

对所有路径加权和

Standard LSTM 和 Lattice LSTM 对比

Lattice LSTM是coupled LSTM 的一种扩展，可以用于多路径输入。

Lattice LSTM 的优势

在句子中有很多信息的路径
有门控制多个路径的输入
字词序列之间建立关联
相似的词可以通过word embedding被利用起来

对于上述第四条，举个例子

比如左边是train语料，右边是test，我们都知道江泽民和胡锦涛是同一类型的词，其他的模型识别不出来右边的，但是Lattice LSTM可以。可以说有一定的泛化能力。

baselines：

而Lattice LSTM CRF：

在最终的baseline对比数据中，发现Lattice LSTM模型是遥遥领先的

还做了进一步的一些实验

OneNotes NER 与金标分词做对比

MSRA NER 测试集中没有金标分词

微博或个人简历 NER 没有金标分词且数据小

具体案例分析

Toolkits for Data Annotation and Neural Models

主要是介绍杨杰博士自己的博士期间做的两个重要工具包。

1. 标注平台 YEDDA （github 174 stars）

（我们实验室也在做我们自己的标注平台ing）

YEDDA的优点是：

效率：在shortcut key上比SOTA快2倍
智能：系统可以根据历史标注推荐注释
强大分析能力：从不同的标注pairs上生成一份diff 报告

ACL best demo nomination

github链接：https://github.com/jiesutd/YEDDA

2. NCRF++：神经网络序列标注（github 699 stars）

基本信息：

神经网络版本的CRF++，支持n-best 输出
不需要额外的code，只需要用config文件即可。
支持12个SOTA神经网络模型，支持任何神经网络特征
并行计算，在CoNLL NER 解码能达到大于2000句每秒

github 地址：https://github.com/jiesutd/NCRFpp

我就是那个。。被镜头封杀的黄衣服。。

首尾照片来自于任子翰！表示感谢！

每日一题

下列哪个神经网络结构会发生权重共享？

A、卷积神经网络

B、循环神经网络

C、全连接神经网络

D、选项A和B

答案：D，理由自己查查吧。快去

IELTS a bit

hamper v. 束缚；妨碍

manipulate v. （暗中）控制；操纵

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2019-05-14，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

深度学习

人工智能

github

本文分享自深度学习自然语言处理微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

登录后参与评论

0 条评论

热度

杨杰博士莅临我校，并做了报告：Recent Advances in Sequence Labeling

杨杰博士莅临我校，并做了报告：Recent Advances in Sequence Labeling

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐