前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >爱奇艺NLP:BiLSTM_CRF的关键词自动抽取

爱奇艺NLP:BiLSTM_CRF的关键词自动抽取

作者头像
机器学习AI算法工程
发布2019-10-28 17:19:37
2.2K0
发布2019-10-28 17:19:37
举报
本文是爱奇艺人工智能研究组2018年的论文,本文创新之处在于将关键词识别转化序列标注任务,将BiLSTM-CRF运用在识别关键词。BiLSTM-CRF常用于命名实体识别、分词、词性标注等任务。

AI项目体验地址 https://loveai.tech

BERT-BiLSMT-CRF-NER 代码

https://github.com/macanv/BERT-BiLSTM-CRF-NER

关键词一般是单个词或者由多个词组成的短语,是指能反映文本主题或者意思的概括性词或者短语,如论文中的Keywords字段、新闻的标签等.把由单个词组成的关键词称作简单关键词(SimpleWord,SW);由多个词组成的关键词称作复杂关键词(ComplicateWord,CW).文中将这两种统称为关键词.人们根据文档中提供的关键词,可以快速了解文档内容、把握文档主旨.同时,关键词被广泛应用于新闻报道、科技论文及文献等领域,以便人们高效地管理和检索文档.

进入Web2.0时代,关键词的自动抽取已被广泛应用于搜索引擎(如Google、百度)、新闻服务(如新闻订阅)以及购物网站(如亚马逊、京东、淘宝).它们根据用户的历史行为,来推荐一些用户感兴趣的广告、新闻和商品等相关服务.同时,关键词在信息检索、文本聚类、分类和文档摘要等NLP任务中也发挥着重要作用.例如,在文本聚类时,可以将关键词相似的多篇文档看成一个簇,这样就可以大大地提高KGMeans聚类的收敛速度;从某天所有新闻中提取出这些新闻的关键词,就可以大致知道那天发生了什么事情.

由此可见,关键词是信息时代人们获取信息、管理和检索资源的重要手段和便捷工具.关键词自动抽取技术为人们在互联网的海量信息中检索知识提供了重要支撑,而个性化推荐技术与关键词自动抽取也有着紧密而重要的联系.

然而,关键词自动抽取面临着两大主要挑战:主观性和复杂性.主观性是指一个标题或者一篇文档,不同人的认知范围不同、看法角度不一,导致其对某一类型或题材的标题的偏好也不同,这样就会影响训练数据的标注质量.给出如下例子:

标题:«熟悉的问道2»为了收视率岳云鹏当场倒立

关键词:孙坚 李咏 熟悉的味道2 岳云鹏 收视率 倒立

其中,“收视率”和“倒立”是否作为关键词,不同人有不同的看法.而“孙坚”和“李咏”并没有在标题中出现,而是根据标题内容打上的.我们把这种基于标题内容打上的标签称为抽象标签.抽象标签并不是本文所研究的目标,本文所研究的关键词均来自于标题.

复杂性是针对一些有歧义的词,即在一个领域下是普通词,在另一个领域下可能是专用名词.如“传奇”这个词,在日常生活中可能就是一个普通词;但在游戏领域,可能就是一款游戏的名字.给出如下例子:

标题:传奇好玩的游戏,召唤小伙伴!

关键词:传奇

针对关键词抽取这个任务,传统方法大致可分为无监督方法和有监督方法.无监督方法主要是利用TFIDF等统计信息来寻找重要词.有监督方法主要是在一个有标注的数据集上训练一个分类器,将关键词抽取任务转化为二分类问题,也就是判断每个候选关键词是否为关键词的二分类问题.有监督方法能综合利用更多的信息,比无监督方法有更大的优势,实验效果也较好.但是,把关键词自动抽取任务看作分类问题存在一些问题,其中最主要的问题是它对每个候选词进行单独处理,忽略了文本中句子结构的有效信息,造成模型分类的性能较差.

针对分类思想解决此任务的不足,本文将关键词抽取任务转化为序列标注问题.本文基于双向LSTM的深度学习框架,结合CRF模型,构建新的关键词自动抽取系统.在本文的方法中,不需要构建人工特征模板和规则,因而可以方便、快捷地构建关键词自动抽取系统.在大规模的真实数据上的实验结果表明,双向LSTMGCRF模型能够获得比传统CRF模型更好的效果.

目前,关键词抽取主要有两种方式:

1)关键词分配,即预先定义一个关键词词库,对于一篇文章,从词库中选取若干词语作为文章的关键词;

2)关键词抽取,即从文章的内容中寻找一些词语作为推荐关键词.

对于关键词分配,一般要求词库是某个或某些领域的专业词汇,或者看作是与一个或多个领域相关的专业词典.这些词典一般都是由专家手工编纂的,有质量保证,但费时费力,而词典的大小和覆盖度决定了关键词分配的范围和效果.当切换到一个新的领域时,又需要重新构建词典,无法满足如今网络时代的大规模应用和推广需求.对于关键词抽取,大致可分为无监督方法和有监督方法.无监督方法会利用TFIDF等统计信息,选取topK作为关键词.这些方法无需人工标注训练集合的过程,因此更加快捷,但无法有效地综合利用词法和语义信息对候选关键词进行排序.而在有监督方法中,将关键词抽取问题转换为判断每个候选关键词是否为关键词的二分类问题,它需要一个已经标注关键词的文档集合来训练分类模型,目标是在一个有标注的数据集上训练一个分类器,以便决定候选词中哪些是关键词.不同的机器学习算法可以训练出这样一个分类器,如贝叶斯算法、决策树算法、bagging、boosGting、最大熵算法、多层感知机和SVM算法.但是,把关键词抽取问题看作分类问题存在一些问题,最主要的问题是它对每个候选词进行单独处理,忽略了文本中句子结构的有效信息,造成模型分类的性能较差.

基于分类思想解决此任务的不足,另外一种思路是将关键词自动抽取任务转化为序列标注问题来解决.传统的最常用的解决序列标注问题的方案是隐马尔可夫(HiddenMarGkovModel,HMM)、最大熵(MaximumEntropy,ME)和条件随机场(ConditionalRandomFields,CRF)等模型.其中CRF是目前解决序列标注问题最主流的做法,性能也最好,目前已被广泛应用于NLP的各种任务中,如分词、词性标注、命名实体识别等,并且取得了非常好的效果.基于此,本文也将CRF应用于关键词自动抽取任务中,并将其作为基准系统.但是,诸如CRF等传统的机器学习算法往往依赖人工设计的特征,而一个特征是否有效往往需要多次尝试与选择,因此人工设计一系列好的特征既费时又费力,而模型的好坏与特征工程的构建有很大关系.近些年,随着深度学习的兴起,其已被广泛应用于NLP的各种任务中,如分词、词性标注、命名实体识别、情感分析等,且取得了一定的成果.长短期记忆网络(LongShortGTermMemoryNetworks,LSTM)作为其中的代表,对处理诸如分词、词性标注、命名实体识别等长序列依赖问题非常有效,具有天然的优势.LSTM会对前面的信息进行记忆并将其应用于当前输出的计算中,而且隐藏层之间的节点是有连接的,这与传统的神经网络模型不同.同时,隐藏层的输入不仅包括输入层的输出,还包括上一时刻隐藏层的输出.而结合LSTM网络和CRF网络,通过LSTM层可以高效地使用前后上下文的特征,通过CRF层使用标签信息,综合利用多种信息,使性能更好.

CRF网络

我们不仅使用 BiLSTM 对标签建模,而且结合使用 CRF

BiLSTMGCRF模型

词向量

与英文文本不同,中文文本并不是事先分好词的.对于 每一个词的词向量,无法在一个未经分词的语料上训练得到. 对于中文分词,本文使用的是爱奇艺 NLP团队自己开发的中文分词工具.本文使用预训练好的词向量,大小为400维.

词性特征 由于大部分关键词符合一定的词性模式,如“形容词+ 名词”是最常见的模型,因此可将词性作为一个很强的分类特 征.对比实验结果如表3所列,allGpos指所有词性.

PS:

LSTM和BiLSTM实验参数设 置 为

RANDOM _ SEED=1337,

MAX_SEQUENCE_LENGTH=100,

WORD_ EMBEDDING_DIM=400,

BATCH_SIZE=64,

Loss=cross entropy,

ACTIVATION=tanh,

Optimizer=RMSprop,

LEAG RNING_RATE=0.001;

BiLSTMGCRF实 验 参 数 设 置 为

RANDOM _SEED = 1337,

MAX_SEQUENCE_LENGTH =100,

WORD _EMG BEDDING_DIM =400,

BATCH _SIZE=100,

Loss=crf. sparse_loss,

ACTIVATION =tanh,Optimizer=RMSprop,

LEARNING_RATE=0.001,

下同. 通过对比exp1,exp2和exp3的实验数据可以发现,BiLSTM-CRF在SW 层面和 CW 层面的性能具有较为显著的提 高.通过对比exp3和exp4可以发现,在 SW 层面上,Fscore 从85.0%提高到86.4%,提升了14个百分点;在 CW 层面 上,Fscore从57.8%提 高 到 58.4%,提 升 了 0.6 个 百 分 点. 数据表明,加入词性这一特征,可以提高模型的性能. 此外,通过对比分析实验结果,综合对人工标注的标签及 词性等分析发现,SW/CW 的词性多集中在名词等词性上,而其他一些词性很少涉及.因此,将人工标注的标签按词性的 个数由多到少排序,选择top10的词性,其他词性为other,再 次进行对比实验,结果如表4所列,其中top10-p05指top10 的词性.

exp4(all-pos)与exp5(top10-pos)表明,相较于加入全部 词性,加入标签的top10词性对SW/CW 更有效,较之前未加 词性,性能提升了1.7个百分点.

主要实验结果 从实验数据(见表5)上看,无论在 SW 层面还是 CW 层 面,BiLSTMGCRF模型均比基准系统 CRF模型提高了0.9个 百分点.

从测 试 数 据 的 对 比 结 果 来 看,BiLSTMGCRF 能 够 召 回 CRF得不到的标签,尤其是 CW,如“海尔洲际酒店”“绵阳米 粉”等,可以看出,BiLSTMGCRF 对 CW 的召回,提升效果更 好.分析结果发现,通过神经网络模型还能在测试数据中发 现一些好的标签,如“假唱”“男神”等,但是标注人员并没有在 测试数据中将这些标签标出. 结束语 本文旨在研究关键词自动抽取任务,并将该任 务建模为序列标注问题.基于 BiLSTMGCRF神经网络框架, 本文提出了一种新的关键词自动抽取方法.实验结果表明, 本文所构建的系统能够获得比基准系统 CRF更好的效果. 从实验结果可以看出,关键词自动抽取任务仍然具有很 大的挑战.目前的方法取得的效果还非常有限,在 CW 层面 上的F 值不足60%.下一步工作中,我们将重点解决错误分 析中部分 SW 无法抽取的情况和 CW 层面上的抽取问题,通 过对这两种情况进行研究和对模型进行改进,进一步提升关键词自动抽取的性能.

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-18,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 机器学习AI算法工程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档