包含CV、NLP、Self-driving、QA、Audio、Medical等,随机列出10个数据集供预览。
https://www.datasetlist.com/
A * 3D
https://github.com/I2RDL2/ASTAR-3D
A * 3D数据集是向现实世界中的行人和公众提供更安全自动驾驶技术的一步。在39,179个LiDAR点云帧和对应的正面RGB图像中,有23万个人类标记的3D对象注释。在不同的时间(白天,晚上)和天气(太阳,云,雨)捕获。
非商业 只能用于研究和教育目的。禁止用于商业用途。
二极管:密集的室内和室外深度数据集
https://diode-dataset.org/
DIODE(密集的室内和室外深度)是一个数据集,其中包含各种高分辨率的彩色图像以及准确,密集,宽范围的深度测量值。这是第一个包含使用一个传感器套件获得的室内和室外场景的RGBD图像的公共数据集。
麻省理工学院 麻省理工学院-您可以自由使用:使用,复制,修改,合并,发布,分发,再许可和/或出售作品的副本。根据以下条款:该作品按“原样”提供,您必须在该作品的所有副本或实质使用中包括版权和许可。
100,000张脸
https://generated.photos/
人工智能产生的100,000张面孔。我们建立了一个原始的机器学习数据集,并使用StyleGAN(NVIDIA的一项奇妙资源)构造了一组逼真的100,000张面孔。我们的数据集是通过在过去2年中在我们的工作室中拍摄29,000多张69种不同模型的照片而构建的。
非商业 只能用于研究和教育目的。禁止用于商业用途。
对象365
https://www.objects365.org/overview.html
Objects365是一个全新的数据集,旨在促进对象检测研究,重点关注野外的各种对象:365个类别600k图像1000万个边界框
CC BY 4.0 Attribution 4.0 International(CC BY 4.0)-您可以自由:共享-复制和重新分发,适应-重新混合,转换以及以商业为基础,在以下条款下:Attribution-您必须给予适当的信誉。
FaceForensics基准测试
http://kaldir.vc.in.tum.de/faceforensics_benchmark/
FaceForensics ++是一个取证数据集,由1000个原始视频序列组成,这些序列已用四种自动面部操纵方法进行操纵:Deepfakes,Face2Face,FaceSwap和NeuralTextures。数据来自977个youtube视频,所有视频均包含可追踪且大部分没有遮挡的正面,这使自动篡改方法能够生成逼真的伪造品。由于我们提供了二进制掩码,因此该数据可用于图像和视频分类以及分割。此外,我们提供了1000种Deepfakes模型来生成和扩充新数据。
非商业 只能用于研究和教育目的。禁止用于商业用途。
TabFact:用于基于表的事实验证的大规模数据集
https://tabfact.github.io/
我们引入了一个名为TabFact(网站:https://tabfact.github.io/)的大规模数据集,该数据集由117,854条带注释的语句组成,涉及到16,573个Wikipedia表,它们的关系分为ENTAILED和REFUTED。
麻省理工学院 麻省理工学院-您可以自由使用:使用,复制,修改,合并,发布,分发,再许可和/或出售作品的副本。根据以下条款:该作品按“原样”提供,您必须在该作品的所有副本或实质使用中包括版权和许可。
CURE-TSD
https://github.com/olivesgatech/CURE-TSD
CURE-TSD:挑战用于交通标志检测的虚幻和真实环境。CURE-TSD数据集中的视频序列分为两类:真实数据和非真实数据。真实数据对应于从真实世界获取的序列的处理版本。虚幻数据对应于在虚拟环境中生成的合成序列。有49个真实序列和49个不真实序列不包含任何特定挑战。我们有34个培训视频和15个测试视频,它们以真实和不真实的顺序播放,没有挑战。每个视频序列中有300帧。共有49个无挑战的真实视频序列,处理了12种不同类型的效果和5种不同的挑战级别。此外,有49种合成视频序列经过处理,具有11种不同类型的效果和5种不同的挑战级别。
未找到 找不到许可证信息
都柏林市:带注释的LiDAR点云
https://v-sense.scss.tcd.ie/DublinCity/
都柏林大学学院(UCD)的城市建模小组通过ALS设备扫描了都柏林市中心的主要区域(即,大约5.6 km ^ 2,包括部分覆盖的区域),该设备于2015年由直升机进行了扫描。但是,实际聚焦区域大约2 km ^ 2,其中包含最密集的LiDAR点云和图像数据集。飞行高度主要在300m左右,整个旅程在41条飞行路径中进行。数据集由标记为100,000个对象的超过2.6亿个激光扫描点组成。
非商业 只能用于研究和教育目的。禁止用于商业用途。
Google指导的会话偏好启发
https://ai.google/tools/datasets/coached-conversational-preference-elicitation
由502个对话组成的数据集,用户和助手之间用12,000个带注释的话语讨论了自然语言的电影偏好。它是使用“绿野仙踪”方法在两名有薪群众工人之间收集的,其中一名工人扮演“助手”的角色,而另一名工人扮演“用户”的角色。
CC-BY-SA 4.0 Attribution-ShareAlike 4.0 International-您可以自由:共享-复制和重新分发,调整-重新混合,转换以及以商业为基础,使用以下条款:Attribution-您必须给予适当的信誉,ShareAlike-如果进行更改,您必须分发您的捐款。
Taskmaster-1
https://ai.google/tools/datasets/taskmaster-1
该数据集由13,215个基于任务的对话框组成,其中包括通过两个不同的过程创建的5,507个口头对话和7,708个书面对话框。每次对话都属于以下六个领域之一:订购比萨饼,创建汽车维修约会,设置乘车服务,订购电影票,订购咖啡饮料和预订餐厅。
CC-BY-SA 4.0