专栏首页达观数据深度学习技术如何应用于文本智能处理?

深度学习技术如何应用于文本智能处理?

在前不久InfoQ主办的Qcon全球软件开发大会上,达观数据创始人陈运文博士受邀出席发表了《文本智能处理的深度学习技术》的演讲。深度学习在人工智能领域已经成为热门的技术,特别是在图像和声音领域相比传统的算法大大提升了识别率。在文本智能处理中深度学习有怎样的具体实践方法?以下内容根据陈运文博士现场分享整理所得。

人工智能目前的三个主要细分领域为图像、语音和文本,达观数据所专注的是文本智能处理领域。文本智能处理,亦即自然语言处理,试图让机器来理解人类的语言,而语言是人类认知发展过程中产生的高层次抽象实体,不像图像、语音可以直接转化为计算机可理解的对象,它的主要应用主要是在智能问答,机器翻译,文本分类,文本摘要,标签提取,情感分析,主题模型等等方面。

自然语言的发展历程经历了以下几个阶段。这里值得一提的是,关于语言模型,早在2000年,百度IDL的徐伟博士提出了使用神经网络来训练二元语言模型,随后Bengio等人在2001年发表在NIPS上的文章《A Neural Probabilistic Language Model》,正式提出神经网络语言模型(NNLM),在训练模型的过程中也能得到词向量。2007年,Mnih和Hinton在神经网络语言模型(NNLM)的基础上提出了log双线性语言模型(Log-Bilinear Language Model,LBL),同时,Hinton在2007年发表在 ICML 上的《Three new graphical models for statistical language modelling》初见其将深度学习搬入NLP的决心。

2008年,Ronan Collobert等人 在ICML 上发表了《A Unified Architecture for Natural Language Processing: Deep Neural Networks with Multitask Learning》,其中的模型名字叫C&W模型,这是第一个直接以生成词向量为目标的模型。LBL与NNLM的区别正如它们的名字所示,LBL的模型结构是一个log双线性结构;而NNLM的模型结构为神经网络结构。这些积淀也成就了Mikolov创造了实用高效的Word2Vec工具,起初,他用循环神经网络RNNLM来做语言模型,发表paper《Recurrent neural network based language model》,之后就是各种改进,博士论文研究的也是用循环神经网络来做语言模型,《Statistical Language Models based on Neural Networks》。

2013年,Mikolov等人同时提出了CBOW和Skip-gram模型。使用了Hierarchial Softmax和Negative Sampling两种trick来高效获取词向量。当然这个模型不是一蹴而就的,而是对于前人在NNLM、RNNLM和C&W模型上的经验,简化现有模型,保留核心部分而得到的。同时开源了Word2Vec词向量生成工具,深度学习才在NLP领域遍地开花结果。

一般地,文本挖掘各种类型应用的处理框架如下所示:

文本数据经过清洗、分词等预处理之后,传统方法通过提取诸如词频、TF-IDF、互信息、信息增益等特征形成高维稀疏的特征集合,而现在则基本对词进行embedding形成低维稠密的词向量,作为深度学习模型的输入,这样的框架可用于文本分类、情感分析、机器翻译等等应用场景,直接端到端的解决问题,也无需大量的特征工程,无监督训练词向量作为输入可带来效果的极大提升。

文本分类

对于文本分类,以下列出了几种典型的深度学习模型:

序列标注

序列标注的任务就是给每个汉字打上一个标签,对于分词任务来说,我们可以定义标签集合为:

。B代表这个汉字是词汇的开始字符,M代表这个汉字是词汇的中间字符,E代表这个汉字是词汇的结束字符,而S代表单字词。下图为中文分词序列标注过程:

中文分词转换为对汉字的序列标注问题,假设我们已经训练好了序列标注模型,那么分别给每个汉字打上标签集合中的某个标签,这就算是分词结束了,因为这种形式不方便人来查看,所以可以增加一个后处理步骤,把B开头,后面跟着M的汉字拼接在一起,直到碰见E标签为止,这样就等于分出了一个单词,而打上S标签的汉字就可以看做是一个单字词。于是我们的例子就通过序列标注,被分词成如下形式:{跟着 Tfboys 学 左手 右手 一个 慢动作}

对于序列标注,传统的方法基本是使用大量的特征工程,进入CRF模型,但不同的领域需要进行相应的调整,无法做到通用。而深度学习模型,例如Bi-LSTM+CRF则避免了这样的情况,可以通用于不同的领域,且直接采用词向量作为输入,提高了泛化能力,使用LSTM和GRU等循环神经网络还可以学习到一些较远的上下文特征和一些非线性特征。

经典的Bi-LSTM+CRF模型如下所示:

生成式摘要

对于生成式摘要,采用Encode-Decoder模型结构,两者都为神经网络结构,输入原文经过编码器编码为向量,解码器从向量中提取关键信息,组合成生成式摘要。当然,还会在解码器中引入注意力机制,以解决在长序列摘要的生成时,个别字词重复出现的问题。

此外,在生成式摘要中,采用强化学习与深度学习相结合的学习方式,通过最优化词的联合概率分布,即MLE(最大似然),有监督进行学习,在这里生成候选的摘要集。模型图如下:

模型图中的ROUGE指标评价是不可导的,所以无法采用梯度下降的方式训练,这样我们就考虑强化学习,鼓励reward高的模型,通过给予反馈来更新模型。最终训练得到表现最好的模型。

知识图谱关系抽取

对于知识图谱的关系抽取,主要有两种方法:一个是基于参数共享的方法,对于输入句子通过共用的 word embedding 层,然后接双向的 LSTM 层来对输入进行编码。然后分别使用一个 LSTM 来进行命名实体识别 (NER)和一个 CNN 来进行关系分类(RC);另一个是基于联合标注的方法,把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序列标注问题。然后通过一个端对端的神经网络模型直接得到关系实体三元组。

如下图所示,我们有三类标签,分别是:

单词在实体中的位置{B(begin),I(inside),E(end),S(single)}

关系类型{CF,CP,…}

关系角色{1(entity1),2(entity2)}

根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,如果一个句子包含一个以上同一类型的关系,那么就采用就近原则来进行配对。

总结:深度学习用于文本挖掘的优缺点

优点:

1. 可以使用非监督数据训练字词向量,提升泛化能力

2. 端到端,提供新思路

3. 一些模型结构能够克服传统模型缺点

缺点:

1. 小数据量效果不一定好

2. 调参工作量有时不亚于特征工程

3. 客户部署硬件环境限制

关于达观数据

达观数据是全球领先的文本智能处理专家,是一家专注于企业知识管理和文字语义理解的国家高新技术企业。达观数据为企业提供完善的文本挖掘知识图谱搜索引擎个性化推荐等文本智能处理技术服务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司。

达观数据核心团队来自百度、阿里、腾讯、盛大等企业的文本挖掘核心部门,在文本挖掘领域已有10余年积累,多次斩获国际数据挖掘最高级别竞赛ACM KDD 和CIKM的世界冠亚军大奖,拥有30多项国家发明专利,并与复旦大学建有技术联合实验室。

现已积累华为、京东、海尔、长虹、中国移动、顺丰、中国平安、招商银行、浦发银行、华泰证券等数百家企业客户的成功服务经验,覆盖金融、科技、制造、法律、电商、视频、传媒等行业,通过完善企业文本的自动化处理能力,有效提升企业运营效率和经营业绩,加快企业智能化转型速度。

* 本文作者:章华 整理

* 转载来源:https://plushunter.github.io/2018/04/24/2018-04-24/

本文分享自微信公众号 - 达观数据(Datagrand_),作者:章华

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-05-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例

    新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的...

    达观数据
  • 干货分享 |企业如何用文本挖掘技术提升运营效果?

    新媒体管家 在刚刚过去的由神策数据举办的年度数据分析行业盛会—— 2017 数据驱动大会上,达观数据创始人兼CEO陈运文,作为自然语言处理领域的专家受邀出席了本...

    达观数据
  • 对话达观数据陈运文:文本智能处理潜力无限,“AI员工”将为企业处理90%的文本工作

    达观数据
  • NLP概述和文本自动分类算法详解 | 公开课笔记

    文本挖掘任务大致分为四个类型:类别到序列、序列到类别、同步的(每个输入位置都要产生输出)序列到序列、异步的序列到序列。

    用户1737318
  • 课堂总结 | 达观数据文本挖掘负责人分享文本分类方法和应用案例

    新媒体管家 自然语言处理(NLP)一直是人工智能领域的重要话题,而人类语言的复杂性也给NLP布下了重重困难等待解决。随着深度学习(Deep Learning)的...

    达观数据
  • 开发 | 小程序也能像朋友圈一样「折叠全文」?有了这个技巧就能做!

    之前做小程序开发时,需要实现对多行文本进行的折叠的效果(类型微信朋友圈)。主要交互有三点:

    知晓君
  • 基于 Cesium 的Web三维地球客户端程序开发框架

    MarsGIS for Cesium三维地球框架 是火星科技研发的一个Web三维地图开发平台系统,是火星科技团队成员多年GIS开发和Cesium使用的技术沉淀。...

    用户2180468
  • 【总结】NLP深度学习算法与文本标注工具

    自然语言处理本身是为了让计算机能够处理、理解以及运用人类语言,从而达到人与计算机之间的有效通讯,为了研究信息检索、情感分析、文本分类、智能问答、摘要提取、文本挖...

    Ediwnaalee
  • 用深度学习(CNN RNN Attention)解决大规模文本分类问题 - 综述和实践

    近来在同时做一个应用深度学习解决淘宝商品的类目预测问题的项目,恰好硕士毕业时论文题目便是文本分类问题,趁此机会总结下文本分类领域特别是应用深度学习解决文本分类的...

    用户1908973
  • 【智能】自然语言处理概述

    1 什么是文本挖掘? 文本挖掘是信息挖掘的一个研究分支,用于基于文本信息的知识发现。文本挖掘的准备工作由文本收集、文本分析和特征修剪三个步骤组成。目前研究和应用...

    陆勤_数据人网

扫码关注云+社区

领取腾讯云代金券