前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >30个最大的机器学习TensorFlow数据集

30个最大的机器学习TensorFlow数据集

作者头像
代码医生工作室
修改2020-07-13 15:48:24
1.3K0
修改2020-07-13 15:48:24
举报
文章被收录于专栏:相约机器人相约机器人

来源 | lionbridge.ai

编辑 | 代码医生团队

TensorFlow由Google Brain的研究人员创建,是用于机器学习和数据科学的最大的开源数据库之一。它是完整的初学者和经验丰富的数据科学家的端到端平台。TensorFlow库包括工具,预先训练的模型,机器学习指南以及一系列开放数据集。为了帮助找到所需的训练数据,本文将简要介绍一些用于机器学习的最大TensorFlow数据集。将以下列表分为图像,视频,音频和文本数据集。

TensorFlow图像数据集

1. CelebA:Celebrity Faces Attributes Dataset(CelebA)是最大的可公开使用的人脸图像数据集,其中包含200,000多个名人图像。

https://www.tensorflow.org/datasets/catalog/celeb_a

每个图像包括5个面部标志和40个二进制属性注释。

2.下采样Imagenet:此数据集用于密度估计和生成建模任务。它包括超过130万个物体,场景,车辆,人等的图像。图像有两种分辨率:32 x 32和64 x 64。

https://www.tensorflow.org/datasets/catalog/downsampled_imagenet

3. Lsun – Lsun是创建的大型图像数据集,用于帮助训练模型以了解场景。数据集包含超过900万张图像,这些图像分为场景类别,例如卧室,教室和餐厅。

https://www.tensorflow.org/datasets/catalog/lsun

4. Bigearthnet – Bigearthnet是另一个大型数据集,其中包含来自Sentinel-2卫星的航拍图像。每个图像覆盖1.2公里x 1.2公里的地面区域。数据集包括每个图像的43个失衡标签。

https://www.tensorflow.org/datasets/catalog/bigearthnet

5. Places 365 –顾名思义,Places 365包含超过180万张不同位置或场景的图像。其中一些类别包括办公室,码头和平房。Places 365是可用于场景识别任务的最大数据集之一。

https://www.tensorflow.org/datasets/catalog/places365_small

6. Quickdraw位图 – Quickdraw数据集是Quickdraw播放器社区绘制的图像的集合。它包含500万张图纸,涵盖345个类别。此版本的Quickdraw数据集包括28 x 28灰度格式的图像。

https://www.tensorflow.org/datasets/catalog/quickdraw_bitmap

7. 裁剪的SVHN–斯坦福大学的街景门牌号码(SVHN)是一个TensorFlow数据集,用于训练数字识别算法。它包含600,000个已裁剪为32 x 32像素的真实世界图像数据示例。

https://www.tensorflow.org/datasets/catalog/svhn_cropped

8. VGGFace2 – VGGFace2是最大的面部图像数据集之一,包含从Google搜索引擎下载的图像。面孔的年龄,姿势和种族各不相同。每个对象平均有362张图像。

https://www.tensorflow.org/datasets/catalog/vgg_face2

9. COCO –由来自Google,FAIR,Caltech等公司的合作者制作,COCO是世界上最大的带标签图像数据集之一。它是为对象检测,分割和图像字幕任务而构建的。

https://www.tensorflow.org/datasets/catalog/coco

数据集包含330,000张图像,其中200,000张被标记。图像中包含80个类别的150万个对象实例。

10. 开放图像挑战赛2019–包含约900万张图像,此数据集是在线上最大的带有标签的图像数据集之一。图像包含图像级标签,对象边界框和对象分割蒙版以及视觉关系。

https://www.tensorflow.org/datasets/catalog/open_images_challenge2019_detection

11. Open Images V4 –此数据集是上述Open Images数据集的另一个迭代。V4包含用于1,600万个不同对象类别的1,460万个边界框。边界框已由人工注释者手动绘制。

https://www.tensorflow.org/datasets/catalog/open_images_v4

12. AFLW2K3D –该数据集包含2000个面部图像,全部以3D面部地标标注。它是为评估3D面部界标检测模型而创建的。

https://www.tensorflow.org/datasets/catalog/aflw2k3d

视频数据集

13. UCF101 –来自中央佛罗里达大学的UCF101是用于训练动作识别模型的视频数据集。数据集包含13320个视频,涵盖101个动作类别。

https://www.tensorflow.org/datasets/catalog/ucf101

14. BAIR机器人推动-BAIR机器人推动来自伯克利人工智能研究中心,其中包含44,000个机器人推动动作的示例视频。

https://www.tensorflow.org/datasets/catalog/bair_robot_pushing_small

15. 移动MNIST–此数据集是MNIST基准数据集的变体。移动MNIST包含10,000个视频。

https://www.tensorflow.org/datasets/catalog/moving_mnist

每个视频显示2个手写数字在64 x 64帧内移动。

16. EMNIST –扩展MNIST包含原始MNIST数据集中转换为28 x 28像素格式的数字。

https://www.tensorflow.org/datasets/catalog/emnist

TensorFlow音频数据集

17. CREMA-D – CREMA-D是为情感识别任务而创建的,它由语音情感表达组成。该数据集包含由年龄,种族和性别不同的91位演员配音的7,442个音频剪辑。

https://www.tensorflow.org/datasets/catalog/crema_d

18. Librispeech – Librispeech是一个简单的音频数据集,其中包含1000个小时的英语语音,这些英语语音来自LibriVox项目的有声读物。它已被用来训练声学模型和语言模型。

https://www.tensorflow.org/datasets/catalog/librispeech

19. Libritts –该数据集包含约585小时的英语口语,由Google Brain团队成员协助编写。Libritts最初是为文本语音转换(TTS)研究而设计的,但可用于多种语音识别任务。

https://www.tensorflow.org/datasets/catalog/libritts

20. TED-LIUM – TED-LIUM是一个数据集,包含110多个小时的英语TED演讲。所有的谈话都被抄录了。

https://www.tensorflow.org/datasets/catalog/tedlium

21. VoxCeleb – VoxCeleb是为演讲者识别任务而建立的大型音频数据集,包含来自1,251位演讲者的150,000多个音频样本。

https://www.tensorflow.org/datasets/catalog/voxceleb

文字数据集

22. C4(通用抓取的Web抓取语料库) – Common Crawl是网页数据的开源存储库。它支持40多种语言,涵盖了七年的数据。

https://www.tensorflow.org/datasets/catalog/c4

23. 公民评论 –该数据集包含来自50个英语新闻站点的超过180万个公共评论示例。

https://www.tensorflow.org/datasets/catalog/civil_comments

24. IRC Disentanglement –这个TensorFlow数据集包括来自Ubuntu IRC频道的刚刚超过77,000条评论。每个样本的元数据包括消息ID和时间戳。

https://www.tensorflow.org/datasets/catalog/irc_disentanglement

25. Lm1b –被称为语言模型基准,该数据集包含10亿个单词。它最初是用来衡量统计语言建模的进度的。

https://www.tensorflow.org/datasets/catalog/snli

26. SNLI –斯坦福自然语言推理数据集是一个570,000个人类书面句子对的语料库。所有对均已手动标记以进行平衡分类。

https://www.tensorflow.org/datasets/catalog/snli

27. e-SNLI –该数据集是上述SNLI的扩展,其中包含原始数据集的570,000个句子对,分类为:含意,矛盾和中立。

https://www.tensorflow.org/datasets/catalog/esnli

28. MultiNLI –以SNLI数据集为模型,MultiNLI包括433,000个句子对,所有句子对都带有蕴含信息。

https://www.tensorflow.org/datasets/catalog/multi_nli

29. Wiki40b –这个大规模的数据集包含来自Wikipedia文章的40种不同语言的文本。数据已清理,非内容部分以及结构化对象已删除。

https://www.tensorflow.org/datasets/catalog/wiki40b

30. Yelp极性评论 –该数据集包含598,000个高度极性的Yelp评论。它们是从2015年Yelp数据集挑战中包含的数据中提取的。

https://www.tensorflow.org/datasets/catalog/yelp_polarity_reviews

尽管上面的数据集是用于机器学习的一些最大,使用最广泛的TensorFlow数据集,但TensorFlow库却庞大且不断扩展。请访问TensorFlow网站以获取有关该平台如何帮助构建自己的模型的更多信息。

推荐阅读

yolo在keras和tensorflow 2.2中的实现

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 相约机器人 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
语音识别
腾讯云语音识别(Automatic Speech Recognition,ASR)是将语音转化成文字的PaaS产品,为企业提供精准而极具性价比的识别服务。被微信、王者荣耀、腾讯视频等大量业务使用,适用于录音质检、会议实时转写、语音输入法等多个场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档