专栏首页人工智能头条“达观杯”文本智能处理挑战赛,季军带你飞

“达观杯”文本智能处理挑战赛,季军带你飞

作者:乐雨泉(yuquanle),湖南大学在读硕士,研究方向机器学习与自然语言处理。欢迎志同道合的朋友和我在公众号"AI 小白入门"一起交流学习。

前段时间和朋友何从庆(AI算法之心)等队友一起组队参加了这个比赛,本来以为小比赛人少,没想到参加的人会有几千人。

最后我们队伍取得季军(4st/3131),虽有些许遗憾,但是也很荣幸认识了更多的大佬。

在此和队友整理总结了一波,放出答辩PPT以及开源了部分代码,希望对刚接触这个领域的小白新手能有些帮助~~~

竞赛背景

  • 2018年人工智能的发展在运算智能和感知智能已经取得了很大的突破和优于人类的表现。而在以理解人类语言为入口的认知智能上,目前达观数据自然语言处理技术已经可以实现文档自动解析、关键信息提取、文本分类审核、文本智能纠错等一定基础性的文字处理工作,并在各行各业得到充分应用。
  • 自然语言处理一直是人工智能领域的重要话题,而人类语言的复杂性也给 NLP 布下了重重困难等待解决。长文本的智能解析就是颇具挑战性的任务,如何从纷繁多变、信息量庞杂的冗长文本中获取关键信息,一直是文本领域难题。随着深度学习的热潮来临,有许多新方法来到了 NLP 领域,给相关任务带来了更多优秀成果,也给大家带来了更多应用和想象的空间。
  • 此次比赛,达观数据提供了一批长文本数据和分类信息,希望选手动用自己的智慧,结合当下最先进的NLP和人工智能技术,深入分析文本内在结构和语义信息,构建文本分类模型,实现精准分类。未来文本自动化处理的技术突破和应用落地需要人工智能从业者和爱好者的共同努力,相信文本智能处理技术因为你的算法,变得更加智能!

比赛网址

http://www.dcjingsai.com/common/cmpt/%E2%80%9C%E8%BE%BE%E8%A7%82%E6%9D%AF%E2%80%9D%E6%96%87%E6%9C%AC%E6%99%BA%E8%83%BD%E5%A4%84%E7%90%86%E6%8C%91%E6%88%98%E8%B5%9B_%E7%AB%9E%E8%B5%9B%E4%BF%A1%E6%81%AF.html

答辩 PPT

详细解决方案

对于这个比赛,我们尝试了很多方法,最后我们发现了一些对解决这个赛题很不错的解决方案(当然,对于其他任务也可以起到不错的效果)。总结如下:

  • 通过对于词向量做一个增强,即利用 word2vec 与 glove 的差异性,构建一个鲁棒性更高的词语向量表征。 具体而言,我们对于每个词通过 word2vec 以及 glove 分别训练出两个200维度的词量,两种向量相结合,表征出更强的语义信息,从而得到一个 400维度的词向量。 大家也可以 word2vec+glove+faxttext 的组合,对于我来说,效果并不是很好,我觉得可能的原因是 faxttext 与 word2vec 的相似性很高,弱化了 glove 的向量表征,同时,对于 glove 单独的词向量我也没有尝试过,大家也可以尝试一下。
  • 对于模型的话,选择了一个比较简单的模型,两个双向的 GRU 模型,然后分别平均池化和最大池化,最后接到FC层。
  • 训练的方式:训练模型我们固定了100个 epoch,然后使用早停的策略,根据验证集上的性能,选择验证数据集上具有最佳准确率分数的模型作为最终模型,并评估其在测试数据集上的性能。

代码如下

1. 导入各个算法库,导入数据集,数据集路径根据自己的路径设置。

2. 词向量维度选取以及句子长度截断一般方法。

  • 对于句子长度选择:统计下每条句子的长度,一般可以看置信区间在90,95,98的句子长度,比如有三条句子,句子中分别有2000,1800,1900个词。因此,基于此代码np.percentile([2000,1800,1900],95),可以得到置信区间在95的句子长度为1990。
  • 对于词向量的维度:可以尝试100,200,300等,对于不同的维度,测试模型的效果,从而选择一个相对较好的维度。

3. 模型构建

本次开源一个比较简单的模型,利用双层的 BiGRU 模型来学习文本的上下文表征,然后通过池化操作,分别提取每一个时间戳的最大池化和平均池化。最后通过 FC 层的训练,构建文本分类模型,实现精准分类。

4. 模型训练

对于模型的训练,我们采用10折交叉进行训练,为了减少时间,可以进行5折交叉进行训练。训练模型我们固定了100个 epoch,然后使用早停的策略,根据验证集上的性能,选择验证数据集上具有最佳准确率分数的模型作为最终模型,并评估其在测试数据集上的性能。

写在后面

本项目主要利用“达观杯”文本比赛的数据,介绍了长文本分类问题的解决方法。我们通过利用两层的 BiGRU 捕捉长文本的上下文信息,然后通过池化层捕捉最关键的文本特征,接着两层的全连接层对文本的关键特征进行训练,从而构建文本分类模型,实现精准分类。

另外,我们通过10折交叉的方式,测试集线上的分数可以达到0.798,仅仅这个单模型可以达到线上前10的效果(在线上赛时)。

另外,为了节省运行时间,可以将10折交叉变成5折交叉,减少运行时间。同时,也可以将BiGRU减少一层。

如果您需要答辩PPT,可以关注"AI小白入门",后台回复"DGJJ"(建议复制)获取。

完整可运行代码以及PPT可以在我的github找到:

https://github.com/yuquanle/2018-daguan-competition-rank

本文分享自微信公众号 - 人工智能头条(AI_Thinker)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-01-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • AutoML 详解及其在推荐系统中的应用、优缺点

    可能有人还记得一个非常古典的、关于推荐系统的例子:超市把尿布和啤酒摆一起,显著的增加了二者的销量。原因是很多买酒的父亲们看到旁边刚好有尿布,就回想起临行前,孩儿...

    用户1737318
  • AutoML 在推荐系统中的应用

    今天,推荐系统的模型和应用已经相当成熟,然而部署一套全新的推荐系统,甚至仅在已有系统上添加数据维度和模型优化依然是非常耗时耗力的事情。

    用户1737318
  • NLP概述和文本自动分类算法详解 | 公开课笔记

    文本挖掘任务大致分为四个类型:类别到序列、序列到类别、同步的(每个输入位置都要产生输出)序列到序列、异步的序列到序列。

    用户1737318
  • “达观杯”文本智能处理挑战赛,季军带你飞

    前段时间和朋友何从庆(AI算法之心)等队友一起组队参加了这个比赛,本来以为小比赛人少,没想到参加的人会有几千人。最后我们队伍取得季军(4st/3131),虽有些...

    小小詹同学
  • “达观杯”文本智能处理挑战赛,季军带你飞

    前段时间和朋友何从庆(AI算法之心)等队友一起组队参加了这个比赛,本来以为小比赛人少,没想到参加的人会有几千人。最后我们队伍取得季军(4st/3131),虽有些...

    yuquanle
  • 通过预测API窃取机器学习模型

    由于机器学习可能涉及到训练数据的隐私敏感信息、机器学习模型的商业价值及其安全中的应用,所以机器学习模型在一定程度上是可以认为是机密的。但是越来越对机器学习服务提...

    FB客服
  • [Sketch技巧]如何制作自适应文本长度的光标效果

    静电说:Sketch中有不少值得研究的小技巧,可以为设计工作带来不少便利。比如今天就有同学问到,如何能在Sketch中让文本输入框后边的光标跟随字段长度移动呢?...

    用户5009027
  • 谷歌大脑提出EfficientNet平衡模型扩展三个维度,取得精度-效率的最大化!

    今天要跟大家重磅介绍上午谷歌大脑新出的论文《EfficientNet: Rethinking Model Scaling for Convolutional N...

    CV君
  • 重磅!谷歌大脑提出EfficientNet平衡模型扩展三个维度,取得精度-效率的最大化!

    今天要跟大家重磅介绍上午谷歌大脑新出的论文《EfficientNet: Rethinking Model Scaling for Convolutional N...

    CV君
  • 本体技术视点 | 身份的五种思维模型(二)

    来源:https://github.com/WebOfTrustInfo/rwot7-toronto/blob/master/final-documents/m...

    本体Ontology

扫码关注云+社区

领取腾讯云代金券