前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >6 大经典机器学习数据集,3w+ 用户票选得出,建议收藏

6 大经典机器学习数据集,3w+ 用户票选得出,建议收藏

作者头像
数据派THU
发布2023-03-29 10:58:31
4510
发布2023-03-29 10:58:31
举报
文章被收录于专栏:数据派THU
代码语言:javascript
复制
本文约1200字,建议阅读6分钟本文汇总了下载排名众多的 6 个数据集,涵盖图像识别、机器翻译、遥感影像等领域。

‍‍‍‍‍‍

这些数据集质量高、数据量大,经历人气认证值得收藏码住。

关键词:数据集   机器翻译   机器视觉

数据集是机器学习模型训练的基础,优质的公开数据集对于模型训练效果、研究成果可靠度等具有重要意义。

注:本文梳理的数据集均来自网站:

https://hyper.ai/datasets

 第 6 名:Tanks Temple 3D 重建数据集  

Tanks Temple Dataset

发布机构:英特尔实验室

包含数量:21 类对象的高清视频

数据类型:video

预估大小:52.53 GB

发布时间:2017 年

下载地址:hyper.ai/datasets/5148

Tanks Temple 图像数据集提供高分辨率的视频,研究人员可以从视频中采集图像,依据图像进行三维重建。该数据集包括训练数据和测试数据两类,其中测试数据分为中级组和高级组。

第 5 名:DOTA 航拍图像数据集  

发布机构:武汉大学

包含数量:2,806 幅航拍图

数据类型:images

预估大小:35.38 GB

发布时间:2017 年

下载地址:hyper.ai/datasets/4920

DOTA 全称为 A Large-scale Dataset for Object DeTection in Aerial Images,是一个包含 2,806 张航拍图的图像数据集,被用于在航拍图像中进行目标检测,发现和评估图像中的物体。

这些图像来源包含不同传感器和平台。每张图像的像素尺寸在 800*800 到 4000*4000 的范围内,其中包含不同尺度、方向和形状的物体。

第 4 名:VGG-Face2 人脸识别数据集 

发布机构:牛津大学 

包含数量:331 万张图片

数据类型:images

预估大小:37.49 GB

发布时间:2015 年

下载地址:hyper.ai/datasets/5711

VGG-Face2 是一个人脸图像数据集,包含共计 9131  个人的面部数据,图像均来自 Google 的图片搜索。数据集中的人在姿势、年龄、种族和职业方面有很大差异。该数据集由牛津大学的工程科学系视觉几何组于 2015 年发布,相关论文有《Deep Face Recognition》。

 第 3 名:UCAS-AOD 遥感影像数据集 

发布机构:中国科学院大学

包含数量:910 张图像

数据类型:images

预估大小:3.24 GB

发布时间:2014 年

下载地址:hyper.ai/datasets/5419

UCAS-AOD 是一个遥感影像数据集,用于飞机和车辆检测。该数据集由国科大于 2014 年首次发布,并于 2015 年补充,相关论文有《Orientation Robust Object Detection in Aerial Images Using Deep Convolutional Neural Network》

 第 2 名:OpenMantra 漫画机器翻译数据集 

发布机构:东京大学 

包含数量:214 页漫画

数据类型:JSON files、images

预估大小:32.46 MB

发布时间:2020 年

下载地址:hyper.ai/datasets/14137

OpenMantra 是一个针对日文漫画的机器翻译评估数据集,包含五种不同风格(fantacy、romance、battle、mystery、slice of life)的漫画。数据集中共包含 1593 个句子,848 个场景画面和 214 页漫画,由东京大学 Mantra 团队发布。

 第 1 名:ImageNet 10 图像识别数据集

机构:普林斯顿大学 

包含数量:1,500 万张图片

数据类型:images

预估大小:860.55 GB

发布时间:2009 年

下载地址:hyper.ai/datasets/4889

ImageNet 是目前世界上最大的图像识别数据库,由斯坦福大学教授李飞飞等人创建。主要用于机器视觉领域的图像分类和目标检测。

数据集根据 WordNet 层次结构组织,其中每个节点(也称为类别)由数百甚至数千张图像组成。该数据集共包含 2.2 万个图像类别,约 1500 万张图片。

编辑:黄继彦

校对:林亦霖‍‍‍

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2023-03-08,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据派THU 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
机器翻译
机器翻译(Tencent Machine Translation,TMT)结合了神经机器翻译和统计机器翻译的优点,从大规模双语语料库自动学习翻译知识,实现从源语言文本到目标语言文本的自动翻译,目前可支持十余种语言的互译。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档