专栏首页AI研习社AI Challenger 2018 即将进入决赛,八大数据集抢先看

AI Challenger 2018 即将进入决赛,八大数据集抢先看

雷锋网(公众号:雷锋网) AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实世界的问题」,主办方提供超过 300 万人民币奖金。

8 月 29 日至 11 月 4 日是第一阶段比赛,参赛队基于训练集、验证集、测试集 A,进行算法设计、模型训练及评估,并提交预测结果,并将于 2018 年 11 月 6 至 8 日开始第二阶段比赛,开放测试集 B。竞赛总决赛答辩和颁奖将于 12 月 18、19 日进行。(个别竞赛时间不一致,以大赛官网为准。)

今年比赛与去年一样,分为主赛道和实验赛道,目前,数据集也陆陆续续发布,接下来,雷锋网 AI 科技评论将会带来这些数据集的介绍,大家可以挑选合适的数据集下载,用于自己的模型训练。

  • 观点型问题阅读理解数据集

本数据集针对阅读理解中较为复杂的,需要利用整篇文章中多个句子的信息进行综合才能得到正确答案的观点型问题,构造了 30 万组由问题、篇章、候选答案组成的训练和测试集合。是目前为止全球难度最大的中文阅读理解公开数据集,全球最大的观点型机器阅读理解公开数据集。

训练集:25 万 验证集:3 万 测试集A:1 万 测试集B:1 万

每条数据为<问题,篇章,候选答案> 三元组组成,每个问题对应一个篇章(500 字以内),以及包含正确答案的三个候选答案。

问题:真实用户自然语言问题,从搜索日志中随机选取并由机器初判后人工筛选 篇章:与问题对应的文本段,从问题相关的网页中人工选取 候选答案:人工生成的答案,提供若干(三个)选项,并标注正确答案

地址:https://challenger.ai/dataset/oqmrcd2018

  • 细粒度用户评论情感分析数据集

用户评论对于深刻理解商家和用户、挖掘用户情感等方面有至关重要的价值,并且在互联网行业有极其广泛的应用,主要用于个性化推荐、智能搜索、产品反馈、业务安全等。为了促进情感分析技术的发展,主办方提供了一个面向餐饮领域的细粒度用户评论情感分析数据集,包含 33.5 万条自大众点评的真实公开用户评论,依据其粒度不同构建双层标注体系,共包含 6 大类 20 个细粒度要素。

训练集:105,000 条 验证集:15,000 条 测试集 A:15,000 条 测试集 B:200,000 条

数据集中的评价对象按照粒度不同划分为两个层次,层次一为粗粒度的评价对象,例如评论文本中涉及的服务、位置等要素;层次二为细粒度的情感对象,例如“服务”属性中的“服务人员态度”、“排队等候时间”等细粒度要素。每个细粒度要素的情感倾向有四种状态:正向、中性、负向、未提及。使用[1,0,-1,-2]四个值对情感倾向进行描述。

地址:https://challenger.ai/dataset/fsaouord2018

  • 英中翻译数据集

随着深度学习技术的不断发展,近年来机器翻译研究研究受到了越来越多的关注。主办方提供了一个英中机器翻译数据集,包含了 1000 万英中对照的句子对作为数据集合。数据主要来源于英语学习网站和电影字幕,领域为口语领域。另外,还提供 300 万带有上下文情景的英中双语口语数据。所有双语句对经过人工检查,数据集从规模、相关度、质量上都有保障。

训练集:1300 万 验证集:8000 测试集 A:8000 测试集 B:8000

地址:https://challenger.ai/dataset/ectd2018

  • 多标签短视频分类数据集

数据集共包含 20 万条短视频,涵盖舞蹈、健身、唱歌等 63 类流行元素,分为训练集(12 万)、验证集(3 万)、测试集 A(3 万)、测试集 B(3 万)。大部分视频的长度为5-15秒。

本数据集采用多标签分类体系,标签信息包含视频主体、场景、动作等多个维度,标注信息将尽量包含视频中展现的所有元素,每条视频有1-3个标签。

相较于传统视频数据集来说,本数据集更具特色。本数据集视频采集设备多为手机且比例多为竖屏;数据集中的很多视频使用了短视频特效,并包含更多视频快进、剪辑等操作;从视频内容上讲,本数据集包含了更多人物中心化的自拍短视频内容。

地址:https://challenger.ai/dataset/mlsvd2018

  • 天气预报数据集

天气预报数据集由北京市 10 个气象站点,共 3 年多的逐小时历史「观测」和「睿图」数据组成。这是中国气象局北京城市气象研究所公开发布的气象数据集,其时间跨度长且密度高,包含气象要素的实况和预报两部分,对提高天气预报准确性具有重要作用。

数据连续性较好,缺失样本(-9999.)很少,并通过 NetCDF4 格式共同存储于单个 nc 文件中。「观测」集逐时记录当前气象观测站点的 9 个地面气象要素,通过气象仪器实时监测得到;「睿图」集包含地面和特征气压层共计 29 个气象要素,由数值预报模式在超级计算机上运算产生。

训练集:1188 天样本 验证集:89 天样本 测试 A 集:包含两个数据集,分别为 2018 年 8 月 29 日至 9 月 24 日和 2018 年 8 月 29 日至 10 月 15 日,分别有 27 天和 48 天样本 测试 B 集:包含 7 个数据集,全部以 2018 年 8 月 29 日为起始日期,以 10 月 28 日至 11 月 3 日分别为结束日期,分别有 61–67 天样本

地址:https://challenger.ai/dataset/wfd2018

  • 农作物病害数据集

标注图片 50,000 张、包含 10 种植物的 27 种病害。

本数据集合由上海新客科技和创新工场联合打造。数据集有 61 个分类(按「物种-病害-程度」分),10 个物种,27 种病害(其中 24 个病害有分一般和严重两种程度),10 个健康分类,47393 张图片。每张图包含一片农作物的叶子,叶子占据图片主要位置。数据集随机分为训练(70%)、验证(10%)、测试 A(10%)与测试 B(10%)四个子数据集。其中,训练集有 32,739 张图片,验证集有 4,982 张图片,测试集 A 有 4,959 张图片,测试集 B 有 4,957 张图片。

地址:https://challenger.ai/dataset/pdd2018

  • 眼底病变数据集

视网膜水肿是一种常见的眼部病理改变,会导致不同程度的视力下降,从而影响正常的生活。尽早的发现水肿症状,能够对疾病的诊断和治疗起到重要的作用。如今临床上使用 OCT(光学相干断层成像)辅助医生对视网膜水肿进行判断。

主办方提供了眼部 OCT 样本的图像数据集,由专业眼科医生分别对三种类型的水肿进行标注,数据量达到 100 个 OCT 体数据,每个体数据 128 张图片。这是国内首个眼底病变医学图像检测竞赛,使用了目前最大的眼底病变数据集,是一次 AI 与医学技术的结合

  • 训练数据包括 cube OCT 数据和水肿标记数据,每个 cube 含有 128 张图片。
  • 验证数据除了 cube OCT 数据和水肿标记数据,还包括提交标准即水肿类型标记和体素标记。
  • 水肿类型标记为 [128,3] 的 01 矩阵,分别标记 128 张图片中对应水肿类型。
  • 体素标记为 [128,1024,512] 矩阵,0、1、2、3 分别代表 Background、REA、SRF、PED。
  • 测试数据为 cube OCT 数据。

地址:https://challenger.ai/dataset/fld2018

  • 图像属性数据集

本数据集由创新工场、北京大学王亦洲教授和复旦大学付彦伟教授联合构造。属性标注对于实现图像理解、知识迁移具有重要意义。

本数据集共 78,017 张图片,可划分为 5 个超类(super-class),分别是动物(Animals)、水果(Fruits)、交通工具(Vehicles)、电子产品(Electronics)、发型(Hairstyles)。其中,动物和水果属于自然产物,交通工具和电子产品属于人造物,发型属于抽象概念。每个超类分别包含 A: 50, F: 50, V: 50, E: 50, H: 30 个类别,总计 230 个类别。对于每个超类(super-class),分别设计了 A: 123, F: 58, V: 81, E: 75, H: 22 个属性,共 359 个属性。每张图片只包含一个前景物体,标注了标签和物体包围框。对于每个类别,随机挑选了 20 张图片进行属性标注。

  • 训练集(seen classes):80% 类别
  • 测试集(unseen classes):20% 类别

训练集所有图片均标注了标签和包围框。对于部分图片(20 张/类),标注了二值属性,属性值为 0 或 1,表示属性「存在」或「不存在」。

地址:https://challenger.ai/dataset/lad2018

更多信息,欢迎参见比赛官网:http://challenger.ai

本文分享自微信公众号 - AI研习社(okweiwu)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据预处理和挖掘究竟该怎么做?硅谷网红告诉你

    Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。 凭借在 Youtube 上的指导视频,Siraj Raval 在全世界吸...

    AI研习社
  • 用小数据集进行原型设计结果的小技巧

    本文作者是 Kanda 的机器学习工程师 Daniel Rothmann,他对一切具有变革性的事物都感兴趣,这里是他在和客户合作的过程中总结出的小数据处理方法。...

    AI研习社
  • 亚马逊数据专家十年经验总结:成为数据科学家的关键四步

    编者按:本文作者 Karolis Urbonas,文章选自他个人博客。AI 研习社编译。 对于数据科学家这一职业,你了解多少? ——这是个被大公司追捧的职位,供...

    AI研习社
  • 资源 | AI Challenger 2018 即将进入决赛,八大数据集抢先看

    AI 研习社消息,由创新工场、搜狗、美团点评、美图联合主办的 AI Challenger 2018 即将进入第二阶段比赛。今年的大赛主题是「用 AI 挑战真实...

    AI科技评论
  • 上海联通“沃+”开放数据应用大赛全网开战

    上海联通“沃+”开放数据应用大赛全网开战 首次开放50万用户脱敏数据 打造DT时代智慧应用 中国最有价值的大数据资源在哪里?答案可能是在通信运营商。三大运营商记...

    小莹莹
  • 国家信息中心发布《2017中国大数据发展报告》

    数据猿导读 为帮助相关政府部门和社会各界更好地发展大数据产业,国家信息中心联合南海大数据应用研究院发布了2017《中国大数据发展报告》。该报告是业界首部完全基于...

    数据猿
  • 大数据24小时 | 云计算“老党”合作Gartner“新秀” 汇冠股份8亿元抢滩教育大数据“蓝海”

    <数据猿导读> 百度宣布投资美国ZestFinance公司 用大数据+人工智能实现精准信用评分;汇冠股份拟8.06亿元恒峰信息100%股份,抢滩教育大数据“蓝海...

    数据猿
  • 浅谈大数据应用研究的3个V

    To knowledge是目标,手段还是mining,俗称数据民工。每当大家讲到大数据,都会不约而同的提到大数据几个V的定义:Volume,Variety,Ve...

    腾讯大数据
  • 大数据专才:“走俏”变“紧缺”

    应对大数据时代的挑战,国内学术界最近动静不小。中科院院士马志明说,上月他每周都在见证一家全新的、和大数据相关的研究机构或研究平台诞生。从中科院系统内部培育的重...

    腾讯研究院
  • Pipeline大数据架构

    Pipeline大数据架构,面向大数据仓库和大数据处理平台。是基于lambda的大数据架构的变种,增加了企业级服务,而并非只是大数据组件的对切,是一种更落地的方...

    王小雷

扫码关注云+社区

领取腾讯云代金券