AI Challenger 2018 即将进入决赛,八大数据集抢先看

雷锋网(公众号:雷锋网) AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实世界的问题」,主办方提供超过 300 万人民币奖金。

8 月 29 日至 11 月 4 日是第一阶段比赛,参赛队基于训练集、验证集、测试集 A,进行算法设计、模型训练及评估,并提交预测结果,并将于 2018 年 11 月 6 至 8 日开始第二阶段比赛,开放测试集 B。竞赛总决赛答辩和颁奖将于 12 月 18、19 日进行。(个别竞赛时间不一致,以大赛官网为准。)

今年比赛与去年一样,分为主赛道和实验赛道,目前,数据集也陆陆续续发布,接下来,雷锋网 AI 科技评论将会带来这些数据集的介绍,大家可以挑选合适的数据集下载,用于自己的模型训练。

  • 观点型问题阅读理解数据集

本数据集针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题,构造了 30 万组由问题、篇章、候选答案组成的训练和测试集合。是目前为止全球难度最大的中文阅读理解公开数据集,全球最大的观点型机器阅读理解公开数据集。

训练集:25 万 验证集:3 万 测试集A:1 万 测试集B:1 万

每条数据为<问题,篇章,候选答案> 三元组组成,每个问题对应一个篇章(500 字以内),以及包含正确答案的三个候选答案。

问题:真实用户自然语言问题,从搜索日志中随机选取并由机器初判后人工筛选 篇章:与问题对应的文本段,从问题相关的网页中人工选取 候选答案:人工生成的答案,提供若干(三个)选项,并标注正确答案

地址:https://challenger.ai/dataset/oqmrcd2018

  • 细粒度用户评论情感分析数据集

用户评论对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。为了促进情感分析技术的发展,主办方提供了一个面向餐饮领域的细粒度用户评论情感分析数据集,包含 33.5 万条自大众点评的真实公开用户评论,依据其粒度不同构建双层标注体系,共包含 6 大类 20 个细粒度要素。

训练集:105,000 条 验证集:15,000 条 测试集 A:15,000 条 测试集 B:200,000 条

数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。每个细粒度要素的情感倾向有四种状态:正向、中性、负向、未提及。使用[1,0,-1,-2]四个值对情感倾向进行描述。

地址:https://challenger.ai/dataset/fsaouord2018

  • 英中翻译数据集

随着深度学习技术的不断发展,近年来机器翻译研究研究受到了越来越多的关注。主办方提供了一个英中机器翻译数据集,包含了 1000 万英中对照的句子对作为数据集合。数据主要来源于英语学习网站和电影字幕,领域为口语领域。另外,还提供 300 万带有上下文情景的英中双语口语数据。所有双语句对经过人工检查,数据集从规模、相关度、质量上都有保障。

训练集:1300 万 验证集:8000 测试集 A:8000 测试集 B:8000

地址:https://challenger.ai/dataset/ectd2018

  • 多标签短视频分类数据集

数据集共包含 20 万条短视频,涵盖舞蹈、健身、唱歌等 63 类流行元素,分为训练集(12 万)、验证集(3 万)、测试集 A(3 万)、测试集 B(3 万)。大部分视频的长度为5-15秒。

本数据集采用多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息将尽量包含视频中展现的所有元素,每条视频有1-3个标签。

相较于传统视频数据集来说,本数据集更具特色。本数据集视频采集设备多为手机且比例多为竖屏;数据集中的很多视频使用了短视频特效,并包含更多视频快进、剪辑等操作;从视频内容上讲,本数据集包含了更多人物中心化的自拍短视频内容。

地址:https://challenger.ai/dataset/mlsvd2018

  • 天气预报数据集

天气预报数据集由北京市 10 个气象站点,共 3 年多的逐小时历史「观测」和「睿图」数据组成。这是中国气象局北京城市气象研究所公开发布的气象数据集,其时间跨度长且密度高,包含气象要素的实况和预报两部分,对提高天气预报准确性具有重要作用。

数据连续性较好,缺失样本(-9999.)很少,并通过 NetCDF4 格式共同存储于单个 nc 文件中。「观测」集逐时记录当前气象观测站点的 9 个地面气象要素,通过气象仪器实时监测得到;「睿图」集包含地面和特征气压层共计 29 个气象要素,由数值预报模式在超级计算机上运算产生。

训练集:1188 天样本 验证集:89 天样本 测试 A 集:包含两个数据集,分别为 2018 年 8 月 29 日至 9 月 24 日和 2018 年 8 月 29 日至 10 月 15 日,分别有 27 天和 48 天样本 测试 B 集:包含 7 个数据集,全部以 2018 年 8 月 29 日为起始日期,以 10 月 28 日至 11 月 3 日分别为结束日期,分别有 61–67 天样本

地址:https://challenger.ai/dataset/wfd2018

  • 农作物病害数据集

标注图片 50,000 张、包含 10 种植物的 27 种病害。

本数据集合由上海新客科技和创新工场联合打造。数据集有 61 个分类(按「物种-病害-程度」分),10 个物种,27 种病害(其中 24 个病害有分一般和严重两种程度),10 个健康分类,47393 张图片。每张图包含一片农作物的叶子,叶子占据图片主要位置。数据集随机分为训练(70%)、验证(10%)、测试 A(10%)与测试 B(10%)四个子数据集。其中,训练集有 32,739 张图片,验证集有 4,982 张图片,测试集 A 有 4,959 张图片,测试集 B 有 4,957 张图片。

地址:https://challenger.ai/dataset/pdd2018

  • 眼底病变数据集

视网膜水肿是一种常见的眼部病理改变,会导致不同程度的视力下降,从而影响正常的生活。尽早的发现水肿症状,能够对疾病的诊断和治疗起到重要的作用。如今临床上使用 OCT(光学相干断层成像)辅助医生对视网膜水肿进行判断。

主办方提供了眼部 OCT 样本的图像数据集,由专业眼科医生分别对三种类型的水肿进行标注,数据量达到 100 个 OCT 体数据,每个体数据 128 张图片。这是国内首个眼底病变医学图像检测竞赛,使用了目前最大的眼底病变数据集,是一次 AI 与医学技术的结合

  • 训练数据包括 cube OCT 数据和水肿标记数据,每个 cube 含有 128 张图片。
  • 验证数据除了 cube OCT 数据和水肿标记数据,还包括提交标准即水肿类型标记和体素标记。
  • 水肿类型标记为 [128,3] 的 01 矩阵,分别标记 128 张图片中对应水肿类型。
  • 体素标记为 [128,1024,512] 矩阵,0、1、2、3 分别代表 Background、REA、SRF、PED。
  • 测试数据为 cube OCT 数据。

地址:https://challenger.ai/dataset/fld2018

  • 图像属性数据集

本数据集由创新工场、北京大学王亦洲教授和复旦大学付彦伟教授联合构造。属性标注对于实现图像理解、知识迁移具有重要意义。

本数据集共 78,017 张图片,可划分为 5 个超类(super-class),分别是动物(Animals)、水果(Fruits)、交通工具(Vehicles)、电子产品(Electronics)、发型(Hairstyles)。其中,动物和水果属于自然产物,交通工具和电子产品属于人造物,发型属于抽象概念。每个超类分别包含 A: 50, F: 50, V: 50, E: 50, H: 30 个类别,总计 230 个类别。对于每个超类(super-class),分别设计了 A: 123, F: 58, V: 81, E: 75, H: 22 个属性,共 359 个属性。每张图片只包含一个前景物体,标注了标签和物体包围框。对于每个类别,随机挑选了 20 张图片进行属性标注。

  • 训练集(seen classes):80% 类别
  • 测试集(unseen classes):20% 类别

训练集所有图片均标注了标签和包围框。对于部分图片(20 张/类),标注了二值属性,属性值为 0 或 1,表示属性「存在」或「不存在」。

地址:https://challenger.ai/dataset/lad2018

更多信息,欢迎参见比赛官网:http://challenger.ai

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技评论

EMNLP 2018 详尽参会见闻

AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,...

1652
来自专栏专知

张翼英:一点论文写作心得

【导读】论文是硕士博士必修之关。我们转载一篇来自张翼英老师的论文心得文章! 本文来自张翼英科学网博客。 链接地址:http://blog.sciencenet....

3807
来自专栏网络

Arxiv网络科学论文摘要14篇

祝大家新年快乐! 意见动态中的交叉问题团结与真相收敛; 普查与第二定律:美国众议院最优分摊的熵权法; 基于主体的模型的特征; Power Plexus:基于网络...

2038
来自专栏大数据文摘

揭穿机器学习“皇帝的新装”

我们常把机器学习描述为一种使用数据模式标记事物的神奇技术。听起来艰涩,但事实上,拨开层层概念,机器学习的核心简单到令人尴尬。

1154
来自专栏AI研习社

话题 | 如何看待谷歌最近开源的“最强NLP模型”BERT?

上周,谷歌AI团队开源了备受关注的“最强NLP模型”BERT的TensorFlow代码和预训练模型,不到一天时间,收获3000多星!

1782
来自专栏华章科技

一文看懂数据可视化:从编程工具到可视化表现方式

说到可视化,就不得不说一下大数据,毕竟可视化是解决大数据的一种高效的手段,而如今人人都在谈论大数据,大数据 ≠ 有数据 ≠ 数据量大, 离谱的是,如今就连卖早点...

1172
来自专栏大数据挖掘DT机器学习

极简增强学习新手教程 返回专栏查看评论

“如何学习新技能?”这是一个全球科学家都在研究的基础问题。为什么会想要知道这个问题的答案呐,答对了好处都有啥呢? 因为一旦我们能够理解这一点,就可以实现一些前...

3135
来自专栏CSDN技术头条

WSDM 2017精选论文解读

人工智能和机器学习领域的学术论文汗牛充栋。每年的各大顶级会议、研讨班录用好几千篇论文,即便是亲临现场也很难追踪到所有的前沿信息。在时间精力有限的情况下,选择精读...

2836
来自专栏机器之心

教程 | 如何用Python和机器学习炒股赚钱?

选自Hackernoon 作者:Gaëtan Rickter 机器之心编译 参与:熊猫 相信很多人都想过让人工智能来帮你赚钱,但到底该如何做呢?瑞士日内瓦的一位...

59513
来自专栏大数据文摘

深度学习中的怪圈

2669

扫码关注云+社区

领取腾讯云代金券