之前了解杨杰博士是从导师那里得知的,模模糊糊,当时也只是知道这个名字而已,谁知道几个月后自己竟然还能作为迎宾亲自去迎接。O(∩_∩)O哈哈~ 路上交流了很多,发现大牛都是这么谦虚,平易近人的吗?
好啦 步入正题,以下内容为事实和自己的部分理解。
简历
杨杰博士,刚刚毕业于新加坡科技设计大学,获计算机科学博士学位;2014年取得中国科学院大学硕士学位;2011年获重庆大学电子工程和物理学双学士学位。本科和研究生都几乎没有接触编程,可以说博士是用了四年时间入门到NLP大牛的华丽转身!现在计划去哈佛读博士后。
博士期间曾在牛津大学量化金融研究所(OMI)从事访问研究。主要研究领域为深度学习与自然语言处理,包括中文分词、命名实体识别、金融新闻分析和医疗文本分析等具体方向。是ACL / COLING / AAAI等学术会议程序委员会成员、是中国计算机协会中文信息技术专委会青年工作委员会委员。曾获得COLING最佳论文奖,ACL最佳演示论文提名,被评为ACL 2018 和 COLING 2018杰出审稿人(Outstanding Reviewer)。主导开发了NCRF++ / YEDDA 等多款自然语言处理开源工具,Github收藏量超过1200。
github:https://github.com/jiesutd
报告内容
标题:
Recent Advances in Sequence Labeling
序列标注的最新进展
大致分为4个内容:
Introduction
Sequence Labeling序列标注:
比如上述的例子,给一句话中的每个词进行标注,标注内容为X-Y。其中X为B(begin)或者I(insert),B表示开始,I表示跟前面的是一起的,这样表示一个完整的序列,单个词用B,多个词用B I I...。Y可以为ORG(organization),PER(person),当然也可以由LOC(local)等。
序列标注运用十分广泛!比如
Neural Sequence Labeling Models
基本的序列标注神经网络模型:
之后的一些改进:
将word(词)和char(字母)同时作为特征输入,中间的网络可以用CNN,LSTM,解码端为Softmax or CRF。
对于这方面的论文,做了一下总结:
`
Training Improvement 训练的改进
Joint training with language model 联合训练
Training the sequence labeling with joint training the language model,Marek Rei, ACL 2017. Liyuan Liu, et, al. AAAI 2018
Adversarial training 对抗训练
Joint training models in multi-criteria datasets, using adversarial learning to integrate shared knowledge,Xinchi Chen et,al. ACL 2017.
Pre-training Improvement 预训练改进
Pretrain Word/Char Embeddings 预训练词 / 字 Embedding
Pretrain word/char embeddings using external information,Jie Yang et,al ACL 2017, Hao Zhou et, al EMNLP 2017.
Pretrain LSTM (ELMo) 预训练LSTM
Pretrain bidirectional LSTM representation in a large-scale language model data. Peters, et, al NAACL 2018 (best paper)
歧义
Chinese Sequence Labeling Models
对于中文来说,不像英文一样一个单词就是一个词,比如
基于词的NER:
基于字的NER:
中文的基于字的效果要比词的效果好,这样不会因为词金标原本的错误导致最终训练效果的不佳,而如果基于字的话,就不会有这样的顾虑。
比如
会有歧义。
这样,引出了自己提出的新的模型 Lattice LSTM :
每一个路径连接一个可能性词的首尾
用之前的传统模型和自己的模型对对比
Character-based model
Word-based model
Lattice model
该模型是在Standard LSTM上改进的,先看看标准的模型们:
RNN
LSTM
Coupled LSTM
而该模型就是在Coupled LSTM上进行了稍微的修改
其中X^w_{b, e}是匹配词(比如这里的市长等)的embeddings
正则化所有的门
对所有路径加权和
Standard LSTM 和 Lattice LSTM 对比
Lattice LSTM是coupled LSTM 的一种扩展,可以用于多路径输入。
Lattice LSTM 的优势
对于上述第四条,举个例子
比如左边是train语料,右边是test,我们都知道江泽民和胡锦涛是同一类型的词,其他的模型识别不出来右边的,但是Lattice LSTM可以。可以说有一定的泛化能力。
baselines:
而Lattice LSTM CRF:
在最终的baseline对比数据中,发现Lattice LSTM模型是遥遥领先的
还做了进一步的一些实验
OneNotes NER 与金标分词做对比
MSRA NER 测试集中没有金标分词
微博或个人简历 NER 没有金标分词且数据小
具体案例分析
Toolkits for Data Annotation and Neural Models
主要是介绍杨杰博士自己的博士期间做的两个重要工具包。
1. 标注平台 YEDDA (github 174 stars)
(我们实验室也在做我们自己的标注平台ing)
YEDDA的优点是:
github链接:https://github.com/jiesutd/YEDDA
2. NCRF++:神经网络序列标注(github 699 stars)
基本信息:
github 地址:https://github.com/jiesutd/NCRFpp
我就是那个。。被镜头封杀的黄衣服。。
首尾照片来自于任子翰!表示感谢!
每日一题
下列哪个神经网络结构会发生权重共享?
A、卷积神经网络
B、循环神经网络
C、全连接神经网络
D、选项A和B
答案:D,理由自己查查吧。快去
IELTS a bit
hamper v. 束缚;妨碍
manipulate v. (暗中)控制;操纵