专栏首页相约机器人网络上最大的机器学习数据集列表

网络上最大的机器学习数据集列表

包含CV、NLP、Self-driving、QA、Audio、Medical等,随机列出10个数据集供预览。

https://www.datasetlist.com/

A * 3D

https://github.com/I2RDL2/ASTAR-3D

A * 3D数据集是向现实世界中的行人和公众提供更安全自动驾驶技术的一步。在39,179个LiDAR点云帧和对应的正面RGB图像中,有23万个人类标记的3D对象注释。在不同的时间(白天,晚上)和天气(太阳,云,雨)捕获。

非商业 只能用于研究和教育目的。禁止用于商业用途。

二极管:密集的室内和室外深度数据集

https://diode-dataset.org/

DIODE(密集的室内和室外深度)是一个数据集,其中包含各种高分辨率的彩色图像以及准确,密集,宽范围的深度测量值。这是第一个包含使用一个传感器套件获得的室内和室外场景的RGBD图像的公共数据集。

麻省理工学院 麻省理工学院-您可以自由使用:使用,复制,修改,合并,发布,分发,再许可和/或出售作品的副本。根据以下条款:该作品按“原样”提供,您必须在该作品的所有副本或实质使用中包括版权和许可。

100,000张脸

https://generated.photos/

人工智能产生的100,000张面孔。我们建立了一个原始的机器学习数据集,并使用StyleGAN(NVIDIA的一项奇妙资源)构造了一组逼真的100,000张面孔。我们的数据集是通过在过去2年中在我们的工作室中拍摄29,000多张69种不同模型的照片而构建的。

非商业 只能用于研究和教育目的。禁止用于商业用途。

对象365

https://www.objects365.org/overview.html

Objects365是一个全新的数据集,旨在促进对象检测研究,重点关注野外的各种对象:365个类别600k图像1000万个边界框

CC BY 4.0 Attribution 4.0 International(CC BY 4.0)-您可以自由:共享-复制和重新分发,适应-重新混合,转换以及以商业为基础,在以下条款下:Attribution-您必须给予适当的信誉。

FaceForensics基准测试

http://kaldir.vc.in.tum.de/faceforensics_benchmark/

FaceForensics ++是一个取证数据集,由1000个原始视频序列组成,这些序列已用四种自动面部操纵方法进行操纵:Deepfakes,Face2Face,FaceSwap和NeuralTextures。数据来自977个youtube视频,所有视频均包含可追踪且大部分没有遮挡的正面,这使自动篡改方法能够生成逼真的伪造品。由于我们提供了二进制掩码,因此该数据可用于图像和视频分类以及分割。此外,我们提供了1000种Deepfakes模型来生成和扩充新数据。

非商业 只能用于研究和教育目的。禁止用于商业用途。

TabFact:用于基于表的事实验证的大规模数据集

https://tabfact.github.io/

我们引入了一个名为TabFact(网站:https://tabfact.github.io/)的大规模数据集,该数据集由117,854条带注释的语句组成,涉及到16,573个Wikipedia表,它们的关系分为ENTAILED和REFUTED。

麻省理工学院 麻省理工学院-您可以自由使用:使用,复制,修改,合并,发布,分发,再许可和/或出售作品的副本。根据以下条款:该作品按“原样”提供,您必须在该作品的所有副本或实质使用中包括版权和许可。

CURE-TSD

https://github.com/olivesgatech/CURE-TSD

CURE-TSD:挑战用于交通标志检测的虚幻和真实环境。CURE-TSD数据集中的视频序列分为两类:真实数据和非真实数据。真实数据对应于从真实世界获取的序列的处理版本。虚幻数据对应于在虚拟环境中生成的合成序列。有49个真实序列和49个不真实序列不包含任何特定挑战。我们有34个培训视频和15个测试视频,它们以真实和不真实的顺序播放,没有挑战。每个视频序列中有300帧。共有49个无挑战的真实视频序列,处理了12种不同类型的效果和5种不同的挑战级别。此外,有49种合成视频序列经过处理,具有11种不同类型的效果和5种不同的挑战级别。

未找到 找不到许可证信息

都柏林市:带注释的LiDAR点云

https://v-sense.scss.tcd.ie/DublinCity/

都柏林大学学院(UCD)的城市建模小组通过ALS设备扫描了都柏林市中心的主要区域(即,大约5.6 km ^ 2,包括部分覆盖的区域),该设备于2015年由直升机进行了扫描。但是,实际聚焦区域大约2 km ^ 2,其中包含最密集的LiDAR点云和图像数据集。飞行高度主要在300m左右,整个旅程在41条飞行路径中进行。数据集由标记为100,000个对象的超过2.6亿个激光扫描点组成。

非商业 只能用于研究和教育目的。禁止用于商业用途。

Google指导的会话偏好启发

https://ai.google/tools/datasets/coached-conversational-preference-elicitation

由502个对话组成的数据集,用户和助手之间用12,000个带注释的话语讨论了自然语言的电影偏好。它是使用“绿野仙踪”方法在两名有薪群众工人之间收集的,其中一名工人扮演“助手”的角色,而另一名工人扮演“用户”的角色。

CC-BY-SA 4.0 Attribution-ShareAlike 4.0 International-您可以自由:共享-复制和重新分发,调整-重新混合,转换以及以商业为基础,使用以下条款:Attribution-您必须给予适当的信誉,ShareAlike-如果进行更改,您必须分发您的捐款。

Taskmaster-1

https://ai.google/tools/datasets/taskmaster-1

该数据集由13,215个基于任务的对话框组成,其中包括通过两个不同的过程创建的5,507个口头对话和7,708个书面对话框。每次对话都属于以下六个领域之一:订购比萨饼,创建汽车维修约会,设置乘车服务,订购电影票,订购咖啡饮料和预订餐厅。

CC-BY-SA 4.0

本文分享自微信公众号 - 相约机器人(xiangyuejiqiren),作者:代码医生

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 上海交大:我们做了一个医疗版MNIST数据集,发现常见AutoML算法没那么好用

    在 AI 技术的发展中,数据集发挥了重要的作用。然而,医疗数据集的创建面临着很多难题,如数据获取、数据标注等。

    代码医生工作室
  • 适用于机器学习的18种最佳机器人数据集

    由于机器人技术的不断发展,机器人数据集变得越来越普遍。在医疗保健领域,旨在协助繁忙医院工作人员的机器人已经在测试中。在工业领域,各种各样的机器人用于焊接,清洁,...

    代码医生工作室
  • 拥有免费数据集的十大优秀网站

    如果是一位尚未尝试过数据科学项目的初学者,那么从“没有经验”的起点到称为“专家”的非常理想的目的地的可能过渡只不过是数据集。

    代码医生工作室
  • AI专家质疑深度学习,写下一篇长达27页文章

    本文经AI新媒体量子位(公众号 ID: QbitAI)授权转载,转载请联系出处 多年坚持为深度学习泼冷水的纽约大学心理学教授Gary Marcus,今天终于写了...

    机器人网
  • 这十大挑战,摆在DL面前:马库斯长文质疑深度学习

    夏乙 若朴 安妮 编译整理 量子位 出品 | 公众号 QbitAI ? 多年坚持为深度学习泼冷水的纽约大学心理学教授马库斯老师(Gary Marcus),今天终...

    量子位
  • 如何运行 O’Reilly 书 Python for Finance 的源代码

    GitHub 中有一个 https://github.com/yhilpisch/py4fi 项目。

    HoneyMoose
  • 云计算能够改变科学计算吗?

    日前,云计算专家汤姆·威尔基提供了两个例证,科学数据集的增长推动向云计算进军,另外,这将深刻地改变科学计算。 今年一月初,伦敦韦尔科姆基金会邀请生命科学领域的一...

    静一
  • 编程小白 | 每日一练(159)

    这道理放在编程上也一并受用。在编程方面有着天赋异禀的人毕竟是少数,我们大多数人想要从编程小白进阶到高手,需要经历的是日积月累的学习,那么如何学习呢?当然是每天都...

    C语言入门到精通
  • 改进SENet-ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks

    绝命生
  • CDP平台上的A-Z数据冒险

    在此博客中,我们将带您进行基于角色的数据冒险,并附带简短的演示,以向您展示A-Z数据工作人员的工作流程,该工作流程通过自助服务、无缝集成和云原生技术得到了加速和...

    大数据杂货铺

扫码关注云+社区

领取腾讯云代金券