专栏首页机器学习AI算法工程基于R-Net、QA-Net和BiDAF实现中文观点型问题机器阅读理解

基于R-Net、QA-Net和BiDAF实现中文观点型问题机器阅读理解

机器阅读理解是指让计算机阅读文本,随后让计算机解答与文中信息相关的问题。本次竞赛将重点针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题。

获取项目代码

关注微信公众号 datayx 然后回复 阅读理解 即可获取。

数据说明

每条数据为<问题,篇章,候选答案> 三元组组成

每个问题对应一个篇章(500字以内),以及包含正确答案的三个候选答案

问题:真实用户自然语言问题,从搜索日志中随机选取并由机器初判后人工筛选

篇章:与问题对应的文本段,从问题相关的网页中人工选取

候选答案:人工生成的答案,提供若干(三个)选项,并标注正确答案

数据以JSON格式表示如下样例:

https://challenger.ai/competition/oqmrc2018

模型结构

最好成绩的单模型我们选择加入alternatives语义和feature engineering的方式,基于R-Net改进。

alternatives语义:由于观点型问题的某些备选答案是携带语义信息的,所以我们将备选答案也做encoding处理。

feature engneering:特征工程,我们使用了tf-idf等方法,将提取的特征向量作为深度模型的另一个输入,只用Linear层进行处理。由于阅读理解任务数据的特性,特征工程这部分工作只有微弱提升。


访问AI图谱 技术分享社区

https://loveai.tech


baseline模型借鉴了微软R-Net模型,与R-Net模型不同的是,我们取消了模型尾部的ptrNet结构,取而代之的是一个单向GRU与softmax层。

本文分享自微信公众号 - 机器学习AI算法工程(datayx)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 统计学习方法概论

    1.统计学习 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习...

    机器学习AI算法工程
  • 判别模型 和 生成模型

    【摘要】 - 生成模型:无穷样本==》概率密度模型 = 产生模型==》预测 - 判别模型:有限样本==》判别函数 = 预测模型==》预测 【...

    机器学习AI算法工程
  • Python:使用sklearn进行集成学习

    ---- 1 前言 2 集成学习是什么? 3 偏差和方差   3.1 模型的偏差和方差是什么?   3.2 bagging的偏差和方差 ...

    机器学习AI算法工程
  • 精炼鉴黄师背后的故事

    用AI来鉴别黄色图片,已经不是什么新鲜的事情。然而能够训练出一个可用的图像识别模型,其中所需要的细节知识还是值得学习的。

    代码医生工作室
  • 统计学习方法概论

    1.统计学习 统计学习的对象是数据,它从数据出发,提取数据的特征,抽象出数据的模型,发现数据中的知识,又回到对数据的分析与预测中去。统计学习...

    机器学习AI算法工程
  • NLP领域近期有哪些值得读的开源论文?(附下载)

    本文是清华大学徐葳老师组和刘知远老师组发表于 ACL 2019 的工作,论文在远程监督与弱监督融合两种技术之间搭建起了一座桥梁,既通过自动生成模式减轻了对领域专...

    数据派THU
  • 塔秘 | 应用 AI 之前,你必须了解的 10 项准备工作

    导读 不是每一个问题都可以通过机器学习来解决,且不是每一个公司都准备应用人工智能。本文会告诉你,你的公司是否有利用人工智能的条件,以及在那之前如何才能实现它。 ...

    灯塔大数据
  • 【3000字扫盲】来搞"颜色"!RGB/HSV/HSI颜色模型

    人眼有四种感光细胞,分别是三种锥状感光细胞,分别感知红,绿,蓝三色,以及感知黑白的杆状细胞。

    周旋
  • Kaggle TensorFlow 2.0 Question Answering 16名复盘

    这是Kaggle春节前结束的一个阅读理解的比赛[1],我和管老师曹老师最终获得16/1233的成绩。成绩来自于管老师的提交,我自己的最好成绩大概排在23名的样子...

    朴素人工智能
  • 机器学习是最容易得到错误结论的一种解决方案

    机器学习是最容易得到错误结论的一种解决方案。和编程、做表格、或者纯粹的数学建模不同,机器学习是由数据驱动,并有很强的黑箱性。因此很多时候容易得出似是而非的结论。...

    统计学家

扫码关注云+社区

领取腾讯云代金券