专栏首页机器学习与生成对抗网络TensorFlow最出色的30个机器学习数据集

TensorFlow最出色的30个机器学习数据集

译者chenx2ovo的翻译作品

英语原文《 30 Largest TensorFlow Datasets for Machine Learning 》

TensorFlow是由谷歌大脑的研究人员创建、最大的机器学习和数据科学的开源数据库之一。它是一个端到端平台,适合完全没有经验的初学者和有经验的数据科学家。TensorFlow库包括工具、预训练模型、机器学习教程以及一整套公开数据集。为了帮助你找到所需的训练数据,本文将简单介绍一些TensorFlow中用于机器学习的大型数据集。我们将以下数据集的列表分为图像、视频、音频和文本。

TensorFlow图像数据集

1. CelebA:明星脸属性数据集(CelebA)是最大的公开可用的人脸图像数据集,其中包含200,000多个名人图像。

每个图像包括5个面部标注和40个二进制属性标注。

2. Downsampling Imagenet:该数据集是为密度估计和生成性建模任务而建立的。它包括了130多万张物体、场景、车辆、人物等图像。这些图像有两种分辨率规格:32×32和64×64。 3. Lsun—Lsun是一个大规模的图像数据集,创建该数据集是为了帮助训练模型进行场景理解。该数据集包含超过900万张图像,按场景类别划分,如卧室、教室和餐厅。 4. Bigearthnet—Bigearthnet是另一个大规模数据集,它包含来自Sentinel-2卫星的航空图像。每张图像覆盖了1.2公里×1.2公里的一片地面。该数据集中有43个类别不平衡的标签。

5. Places 365—顾名思义,Places 365包含180多万张不同地方或场景的图片。其中一些类别包括办公室、码头和别墅。Places 365是用于场景识别任务的最大数据集之一。 6. Quickdraw位图—Quickdraw数据集是由Quickdraw玩家社区绘制的图像集合。它包含500万张图纸,跨越345个类别。这个版本的Quickdraw数据集包括28×28的灰度图像。 7. SVHN Cropped—街景房号(SVHN)是为训练数字识别算法,由斯坦福大学建立的TensorFlow数据集。它包含60万个真实世界的、被裁剪成32×32像素的图像数据实例。

8. VGGFace2—最大的人脸图像数据集之一,VGGFace2包含从谷歌搜索引擎下载的图像。数据集中的人脸在年龄、姿势和种族上都有所不同。每个类别平均有362张图像。 9. COCO—由谷歌、FAIR、加州理工学院等合作者制作,是世界上最大的标签图像数据集之一。它是为物体检测、分割和图像字幕任务而建立的。

通过cocodataset.org

数据集包含330,000张图像,其中20万张有标签。在所有图像中,共包含了80个类别的150万个对象实例。

10. Open Images Challenge 2019—包含约900万张图像,该数据集是网上最大的、标注的图像数据集之一。这些图像包含图像级标签、对象边界框和对象分割掩码,以及他们之间的视觉关系。 11. Open Images V4—这个数据集是上述Open Images数据集的另一个迭代。V4版本中包含了600个不同物体类别的1460万个边界框。这些边界框是由人类标注者手动绘制的。

12. AFLW2K3D—该数据集包含2000张面部图像,均有3D面部真实标注。它的创建是为了评估3D面部标注检测模型。

视频数据集

13. UCF101—来自中央佛罗里达大学,UCF101是为训练动作识别模型而建立的视频数据集。该数据集有101个动作类别的13320个视频,。

14. BAIR Robot Pushing—来自伯克利人工智能研究,BAIR Robot Pushing包含44000个机器人推的动作的示例视频。 15. Moving MNIST—这个数据集是MNIST基准数据集的一个变体。Moving MNIST包含10,000个视频。 每个视频都显示了在64×64大小的帧内2个手写数字的移动过程。

16. EMNIST—扩展的MNIST数据集,包含了原始MNIST数据集转换成28 x 28像素大小的图片。

TensorFlow音频数据集

17. CREMA-D—为情感识别任务而创建,CREMA-D由语音情感表达组成。该数据集包含由年龄,种族和性别不同的91位演员表达的7,442个音频剪辑。 18. Librispeech—Librispeech是一个简单的音频数据集,它包含1000小时的英语语音,这些语音来自LibriVox项目的有声读物。它被用于训练声学模型和语言模型。

19. Libritts—这个数据集包含约585小时的英语语音,是在Google Brain团队成员的协助下准备的。Libritts最初是为Text-to-speech(TTS)研究设计的,但可以用于各种语音识别任务。

20. TED-LIUM—TED-LIUM是一个包含110多个小时的英语TED演讲的数据集。所有的演讲内容都已被转录。

21. VoxCeleb—VoxCeleb是为演讲者识别任务而建立的大型音频数据集,包含来自1,251位演讲者的150,000多个音频样本。

文本数据集

22. C4(Common Crawl's Web Crawl Corpus)—Common Crawl是一个开放源码的网页数据库。它包含了超过40种语言、跨越7年的数据。 23. Civil Comments—这个数据集是由来自50个英文新闻网站的180多万条公众评论构成的。 24. IRC Disentanglement—这个TensorFlow数据集包括来自Ubuntu IRC频道的77000多条评论。每个样本的元数据包括消息ID和时间戳。 25. Lm1b—被称为语言模型基准,这个数据集包含10亿个单词。它最初是为了衡量统计语言建模的进展。 26. SNLI—斯坦福自然语言推理数据集是一个包含57万个人类写作句子对的语料库。所有的句对都经过人工标注,类别是均衡的。 27.e-SNLI—这个数据集是上面提到的SNLI的扩展,它包含了原始数据集的57万个句子对,分类为:包含、矛盾和中性。 28. MultiNLI—仿照SNLI数据集,MultiNLI包含433,000个句子对,都有尾部信息注释。 29. Wiki40b—这个大规模的数据集包括40种不同语言的维基百科文章。这些数据已经被清理,其中的非内容部分以及结构化对象已经被去掉。 30. Yelp极性评论—这个数据集包含598,000条高度极性的Yelp评论。它们是从2015年Yelp数据集挑战赛中的数据提取出来的。

虽然上述数据集是机器学习中最大、最广泛使用的一些TensorFlow数据集,但TensorFlow库是庞大的,并在不断扩展。请访问TensorFlow网站,了解更多关于该平台如何帮助您构建自己的模型的信息。 如果还是找不到你需要的训练数据?在Lionbridge,使用我们最先进的AI平台来大规模创建自定义数据集。联系我们的销售团队或注册免费试用版,立即开始构建高质量的数据集。

本文分享自微信公众号 - 机器学习与生成对抗网络(AI_bryant8)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-08-25

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • StarGAN第2版:多域多样性图像生成

    ,该码由映射网络F或样式编码器E提供。其中,使用的是自适应实例归一化(AdaIN)将s注入G。s被设计为表示特定域y的样式,这消除了向G提供y的必要性,并使G可...

    公众号机器学习与生成对抗网络
  • 【1】GAN在医学图像上的生成,今如何?

    最初,GAN在被提出时,是一个无监督(无条件)的生成框架:例如在图像合成中,将随机噪声映射到逼真的目标图像。

    公众号机器学习与生成对抗网络
  • 天降斯雨,于我却无!GAN用于去雨如何?

    1. 2017-Image De-raining Using a Conditional Generative Adversarial Network

    公众号机器学习与生成对抗网络
  • TensorFlow中最大的30个机器学习数据集

    largest tensorflow datasets for machine learning

    OpenCV学堂
  • 想从事大数据、海量数据处理相关的工作,如何自学打基础?

    想做数据处理尤其是大数据量处理的相关工作必须兼具计算机科学基础和统计基础。 现在有一个高大上的职业叫数据科学家,有人说数据科学家就是一个比程序员更懂统计的统计...

    用户2292346
  • 初识-大数据

    hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读...

    DataScience
  • ML_Basic-特征预处理操作指南

    主要是删除原始数据集中无关的数据、重复的数据,平滑噪声数据,筛选掉与挖掘主题无关的数据,处理异常值缺失值等操作

    Sam Gor
  • 深度学习与机器学习中开源图片数据库汇总

    数据的准备工作是训练模型前的必要工作,显然这也是非常耗时的,所以在入门阶段我们完全可以用现有的开源图片库快速完成前期的准备工作: ImageNet ImageN...

    chaibubble
  • Python学习3-Python的数据

    如果上面的list,我要拿第2个数据,表示t = list[1];这个时候取出来的就是3。还有一种取值方法[头下标:尾下标],只是一种范围的截取,截取出来和li...

    用户7466307
  • 原创译文|你应该知道的18个大数据工具

    在当今的数字革命浪潮中,大数据成为公司企业分析客户行为和提供个性化定制服务的有力工具,大数据切切实实地帮助这些公司进行交叉销售,提高客户体验,并带来更多的利润。...

    灯塔大数据

扫码关注云+社区

领取腾讯云代金券