展开

关键词

首页关键词开源数据集

开源数据集

相关内容

云数据库 PostgreSQL

云数据库 PostgreSQL

云数据库 PostgreSQL(TencentDB for PostgreSQL)能够让您在云端轻松设置、操作和扩展目前功能最强大的开源数据库 PostgreSQL,腾讯云将负责处理绝大部分复杂而耗时的管理工作,如PostgreSQL 软件安装、存储管理、高可用复制以及为灾难恢复而进行的数据备份,让您更专注于业务程序开发。
  • 机器学习经典开源数据集

    0x00 前言数据为王,使用相同机器学习算法,不同质量的数据能训练出不同效果的模型。本文将分享数据科学领域中经典的几个开源数据集。正文分三部分:详细介绍最常用的几个经典数据集介绍如何使用 Python 优雅地观察数据集其它开源数据集的获取方式0x01 经典数据集一、概述下面表格中是居士整理的一些最常用的数据集,基本上能用于整个机器学习的过程中Iris也称鸢尾花卉数据集,是一类多重变量分析的数据集。是由杰出的统计学家R.A.Fisher在20世纪30年代中期创建的,它被公认为用于数据挖掘的最著名的数据集。七、MNISTMNIST数据集机器学习领域内用于手写字识别的数据集,数据集中包含6个万训练集、10000个示例测试集。,每个样本图像的宽高为28*28。自带数据集,感兴趣的可以直接在官网中查看相应的api,包含了大部分常用的数据集。
    来自:
    浏览:1211
  • 资源 | 25个深度学习开源数据集,have fun !

    本文介绍了图像处理,自然语言处理,以及音频语音处理三类25个开源数据集。简介深度学习(或生活中的大部分领域)的关键是演练。演练各种问题-从图像处理到语音识别。每个问题都有其独特的细微差别和方法。如何使用这些数据集 首先要做的事-这些数据集的容量相当大!所以请确保你的网络是高速的、不限流量或有很多流量地下载数据。有很多种可以使用这些数据集的方式。你可以使用它们来应用各种深度学习技巧。SOTA:Wordnets: State of the Art and PerspectivesYelp Reviews 这是Yelp为了学习目的而发布的一个开源数据集。这是一个开源数据集,所以希望随着人们继续贡献更多样本帮助它不断成长。数据集包括了完整长度和HQ音频,预先计算的特征,以及音轨和用户级元数据。它是一个用于评估MIR中的一些任务的开源数据集。
    来自:
    浏览:505
  • 广告
    关闭

    2021 V+全真互联网全球创新创业挑战赛

    百万资源,六大权益,启动全球招募

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
  • 1400小时开源语音数据集,你想要都在这儿

    (数据集链接:https:voice.mozilla.orgzh-CNdatasets)Common Voice 项目可以集成到由 DeepSpeech,也就是基于 DeepSpeech 语音识别框架的一套语音转文本的开源语音识别引擎2017 年 6 月,Mozilla 宣布推出 Project Common Voice 众包计划,旨在为语音识别应用构建开源数据集。所以 Common Voice 能提供优质数据吗?还有网友拿开源数据集 LibriSpeech 做了对比:ASR 训练的有声读物是绝对不错的。但是 Common Voice 的目标不是取代 LibreSpeech 或其他开放数据集(如 TED 演讲)作为训练数据集,而是它们的有益补充。总之,相较于目前已开源的其他语音数据集类型单一,数据量不足,数据杂乱的情况,虽然而 Common Voice 的数据集有不足,但在综合多样性、丰富性和质量方面都遥遥领先。
    来自:
    浏览:1088
  • 图像分类经典项目:基于开源数据集Fashion-MNIST的应用实践

    使用这些技巧,在开源Fashion-MNIST数据集上达到了96.21%的Acc,为大家提供了一个简单有效的深度卷积神经网络的图像分类Baseline。目标将得到的强Baseline在开源的Fashion-MNIST数据集对这些技巧进行了评估,并取得了96.21%的Acc。MNIST相信大家对经典的MNIST数据集都不陌生,它包含了大量的手写数字,可谓是算法工作者的必测数据集之一。训练技巧本文对比使用了两种不同的训练方式:WarmUp + CosineAnnealingLR(Adam)Ranger Optimizer结果分析本节将在开源的Fashion-MNIST数据集上评估我们的模型结果讨论通过实验比较与分析可以看出:使用好的backbone能起到很好的作用,同时使用开源数据集预训练模型进行迁移学习能够加快收敛速度的同时提升精度。
    来自:
    浏览:938
  • Tianchi开源数据集

    来自:
    浏览:139
  • 资源 | 这是一份非常全面的开源数据集,你真的不想要吗?

    近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:最近新增数据集开源生物识别数据:http:openbiometrics.org Google Audioset:扩展了 632地址:http:www1.cs.columbia.eduCAVEsoftwaresoftlibcoil-100.phpGoogle 开源图像:有 900 万张图像的网址集合,这些图像通过知识共享(Creative地址:https:aws.amazon.comdatasetsgoogle-books-ngramsYelp 开源数据集:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。地址:https:grouplens.orgdatasetsmovielensMillion Song 数据集:Kaggle 上元数据丰富的大型开源数据集,可以帮助人们使用混合推荐系统。
    来自:
    浏览:2158
  • 资源 | 这是一份非常全面的开源数据集,你,真的不想要吗?

    选自Medium作者:Bharath Raj机器之心编译参与:高璇、王淑婷近期,skymind.ai 发布了一份非常全面的开源数据集。内容包括生物识别、自然图像以及深度学习图像等数据集,现机器之心将其整理如下:(内附链接哦~)最近新增数据集开源生物识别数据:http:openbiometrics.org Google Audioset地址:http:www1.cs.columbia.eduCAVEsoftwaresoftlibcoil-100.phpGoogle 开源图像:有 900 万张图像的网址集合,这些图像通过知识共享(Creative地址:https:aws.amazon.comdatasetsgoogle-books-ngramsYelp 开源数据集:Yelp 数据集是用于 NLP 的 Yelp 业务、评论和用户数据的子集。地址:https:grouplens.orgdatasetsmovielensMillion Song 数据集:Kaggle 上元数据丰富的大型开源数据集,可以帮助人们使用混合推荐系统。
    来自:
    浏览:355
  • 收藏| 最全 SLAM 开源数据集汇总

    本文来源于 GitHub 仓库 younggunchoawesome-slam-datasets,整理出了几乎所有提供姿位姿和地图信息的各种 SLAM 数据集。https:github.comPaoPaoRobotawesome-slam-datasets 值得补充的是,原文尚未提及 Apollo Scape 数据集和 ICRA 2019 的 DatasetRacing Dataset 无人机快速竞赛数据集)。00总览本文不仅收集了各式各样的数据集,和评估工具,并对其进行了按照不同标准的分类,供大家快速选择。下图对每个数据集的来源机构,年份,环境,是否包含 GT pose,GT Map,IMU,GPS,语义标签,LIDAR,相机,事件相机,深度相机,雷达,声纳,多普勒速度记录,或其他相关信息进行了总结。?
    来自:
    浏览:4231
  • 开放的一天,吴恩达、谷歌、Facebook纷纷开源数据集

    吴恩达几个小时前开源的「胸片」数据集希望借助 CV 辅助疾病诊断;Facebook 几天前开源的「BISON」希望借助 CV 与 NLP 学习文字与图像的内在联系;而几个小时前谷歌更是开源了大型「自然问答在这篇文章中,我们将介绍这几天开源的三种数据集,它们与已有的通用数据集都不太一样,且更关注精细化的任务。例如在谷歌开源的 QA 数据集中,它里面都是真实的搜索问题,答案也都是从维基百科查找的。其它如吴恩达等研究者开放的胸部影像数据集和 Facebook 开源的新型图像描述数据集都很有特点,也许以后年年体检的「胸片」就能使用 DL 辅助诊断了,也许文本内容和图像内容以后就能相互转换了。图 2:COCO-BISON 数据集收集过程图示:研究者使用 COCO captions 数据集进行 BISON 数据集收集工作。目前已开源了验证数据和评估代码。
    来自:
    浏览:267
  • 云数据仓库 PostgreSQL

    云数据仓库 PostgreSQL (Cloud Data Warehouse PostgreSQL,CDWPG)(原Snova数据仓库)为您提供简单、快速、经济高效的PB级云端数据仓库解决方案。CDWPG兼容Greenplum开源数据仓库,是一种基于MPP(大规模并行处理)架构的数仓服务。借助于该产品,您可以使用丰富的PostgreSQL 开源生态工具,实现对云数据仓库中海量数据的即席查询分析、ETL 处理及可视化探索;还可以借助云端数据无缝集成特性,轻松分析位于 COS、TencentDB、ES 等数据引擎上的 PB 级数据。
    来自:
  • 亚马逊创建并开源数据集,用于理解不同语言中的名字

    亚马逊已经创建并开源了一个数据集,用于训练AI模型以识别不同语言和脚本类型的名称,因此Alexa可以例如在英语发音者发音时理解日本艺术家或人的名字,反之亦然。这被称为音译多语言命名实体音译系统,用于识别不同语言名称的工具基于在亚马逊从维基数据制作数据集之后创建的AI模型,用于填充维基百科的内容。总之,该数据集包含近400000个阿拉伯语,英语,希伯来语,日语片假名和俄语等语言的名称。研究结果已发表在Arxiv上,将于本月晚些时候在新墨西哥州圣达菲举行的国际计算语言学会议上分享。
    来自:
    浏览:239
  • 管理数据集

    数据集列表分为两部分,一是数据源,二是用户所创建的数据集。在腾讯云 BI 中,用户创建的数据源都被隔离在独有的文件夹中,用户在自己的文件夹下操作。用户可以创建文件夹、对已有数据集重命名、移除等。数据集支持多种管理操作:移动数据集位置、搜索数据集、搜索数据源、打开数据源、创建数据集、重命名、新建文件夹、复制&粘贴、删除、刷新、新建报告、预览数据集。搜索数据集根据输入的文字搜索名字中包含此文字的文件夹、数据集等。搜索数据源单击数据源搜索图标,进入搜索。数据源搜索的用法以 sqlserver 数据库为例。打开数据集用户在数据集列表区域,单击更多图标选择打开数据集选项来打开选中的数据集。创建数据集用户在数据集列表区域,选中数据源文件夹下的数据源,单击更多图标选择创建数据集选项来新建数据集。当用户复制文件夹,在此文件夹下面的数据集也一并被复制。删除移除列表中用户不需要的数据集或文件夹。当用户移除文件夹后,在此文件夹中的数据集也将一并被移除。刷新刷新当前的数据集列表。
    来自:
  • Excel 数据集

    相对于其他数据集,Excel 数据集的使用简单方便。当用户的数据存储在 Excel、CSV、TXT 或 LOG 文件中时,可通过 Excel 数据集直接上传数据,作为数据集使用。说明: Excel 数据集目前支持上传2003和2007类型的 Excel 文件。创建 Excel 数据集登录 商业智能分析 BI 控制台,选择左侧菜单栏创建数据集 > Excel 数据集,进入到创建 Excel 数据集页面。数据治理创建数据集后,刷新元数据,可对元数据进行一系列数据清洗、治理操作,包括:转换为数字列(企业版)、转换为日期列(企业版)、转换为维度列、转换为度量列、设置文件夹(企业版)、设置数据层次(企业版)、数据治理详情请参考 数据治理。
    来自:
  • SQL 数据集

    创建 SQL 数据集登录 商业智能分析 BI 控制台。可通过以下两种方式进入创建 SQL 数据集界面: 单击首页上的 SQL 数据集,进入 SQL 数据集新建界面。选择左侧菜单栏创建数据集,在新打开的页面上选择 SQL 数据集。使用存储过程创建 SQL 数据集SQL 存储过程(Stored Procedure)是一组为了完成特定功能的 SQL 语句集,经编译后存储在数据库中。用户通过指定存储过程的名字来执行它。此时没有任何的参数需要配置,刷新元数据即可预览数据。目前不支持带参的存储过程。SQL 数据集特例(企业版功能)数据集经纬度数据SQL 语句支持对经纬度数据的查询。使用 SQL 语句对经纬度数据进行查询的截图如下所示:性能检测用户使用 SQL 数据集时,系统会对数据集性能进行实时检测,并对影响性能的地方做出橙色标识,告知用户哪些列为什么没有下推到数据库执行,如下图所示
    来自:
  • Mongo 数据集

    腾讯云商业智能分析 BI 支持连接 MongoDB 数据源,进行数据查询、计算和分析。通过输入 URL、用户名和密码成功连接 MongoDB 后,选择数据库中的某个集合,即可管理这个集合中的数据。创建 Mongo 数据集登录 商业智能分析 BI 控制台,选择左侧菜单栏创建数据集 > Mongo 数据集,进入到创建 Mongo 数据集页面。数据治理创建数据集后,刷新元数据,可对元数据进行一系列数据清洗、治理操作:转换为数字列(企业版)、转换为日期列(企业版)、转换为维度列、转换为度量列、设置文件夹(企业版)、设置数据层次(企业版)、设置日期层次(企业版)、设置数据范围(企业版)、设置表达式(企业版)、设置日期表达式、为字段设置别名、设置数据权限(企业版)。数据治理详情请参考 数据治理。
    来自:
  • 组合数据集

    创建组合数据集登录 商业智能分析 BI 控制台,选择左侧菜单栏创建数据集 > 组合数据集,进入到组合数据集页面。组合数据集可以直接从左边的数据集资源树上拖拽一个数据集到组合数据集编辑区域;也可以拖拽数据源里的表或视图到组合数据集编辑区域把数据集、表、视图拖拽到组合数据集里后,在这个文档里,统一叫“表”。添加数据集从左边资源树上拖拽一个数据集得到组合数据集编辑区域。任何类型的数据集都可以被添加进来。一个组合数据集里不能仅仅只有一张表,这张表来自于数据集。删除表单击表头上的删除数据集即可删除表。展示 SQL 语句可以单击组合数据集编辑区域下方的展示 SQL 语句,来查看这个组合数据集生成的 SQL 语句。性能检测用户使用组合数据集时,系统会对数据集性能进行实时检测,并对影响性能的地方做出橙色标识,告知用户哪些操作没有下推到数据库执行:和 SQL 数据集一样,在组合数据集上,用户也可以通过单击检测性能,查看所有性能问题
    来自:
  • 一文看尽CVPR 2019十大新研究:“不看也知”成热点,无人车新增重磅开源数据集

    IBM则提出了标签集操作(LaSO)网络。 传送门:https:arxiv.orgpdf1902.09811.pdf?传送门:https:arxiv.orgabs1904.11111https:mp.weixin.qq.comsvb7_XMsJ_LkFMqZmgUtUVA最后,还有两项来自无人驾驶领域的重要开源数据集。一项是Google兄弟公司Waymo,宣布开源包含完整传感器信息的全新标注数据集 Waymo Open Dataset,相比业内主流开源数据集,在传感器配置、数据集大小上都有很大提升。包含了3,000个驾驶场景,600,000帧,大约2500万个3D边界框和2200万个2D边界框的16.7小时视频数据传送门:https:waymo.comopen另一项是福特旗下的ArgoAI的开源数据集:Argoverse.包括113个场景的3D跟踪注释,超过300,000个车辆轨迹,测试基准,290公里记录的道路车道,以及用于将传感器数据与地图数据连接的API。
    来自:
    浏览:521
  • 云数据库 MySQL

    腾讯云数据库MySQL是一种高性能、高可靠、高安全、可灵活伸缩的数据库托管服务,其不仅经济实惠,而且提供备份回档、监控、快速扩容、数据传输等数据库运维全套解决方案,为您简化 IT 运维工作,让您能更加专注于业务发展
    来自:
  • 最好用的 AI 开源数据集(涵盖计算机视觉、NLP、语音等 6 大类)

    我们有许多开源的最前沿的工具,如 TesorFlow,Torch,Spark 等,也有 AWS、Google Cloud 以及其他云服务提供商提供的大量计算力,这意味着你可以悠哉地一边喝着咖啡一边用 laptop标准数据集可以用于验证模型,或作为构建更加定制化的解决方案的一个好的起点。以下是我们精心收集的一些非常好的开放数据集,也是做 AI 研究不容错过的数据集。标签解释?【学术】这些是在机器学习和 AI 的学术研究中通常作为基准或基线使用的数据集。无论好坏,研究人员都使用这些数据集来验证算法。【陈旧】这些数据集,无论是否实用,已经有相当长历史了。大多数语音识别数据集是专有的,因为这些数据对于创建该数据集的公司来说具有很大价值。因此,这部分的可用公开数据集多数比较陈旧。地址:https:grouplens.orgdatasetsmovielensMillion Song Dataset:Kaggle 上的大型、元数据丰富的开源数据集,对混合推荐系统有用。
    来自:
    浏览:796

扫码关注云+社区

领取腾讯云代金券