【新智元导读】谷歌BigQuery的公共大数据集可提供训练数据和测试数据,TensorFlow开源软件库可提供机器学习模型。运用这两大谷歌开放资源,可以建立针对特定商业应用的模型,预测用户需求。...预测因素与目标 谷歌的 BigQuery 公共数据集既包括纽约的出租车搭乘总数(见表格 nyc-tlc:green),也包括国家海洋和气象局的天气数据(见表格 fh-bigquery:weather_gsod...我们可以在一个测试数据集上运行测试基准模型和机器学习模型,以评估机器学习模型是否比测试基准的表现更好。 为了创造出测试数据集,我们将集齐所有的训练数据,把它按 80:20 分为两部分。...我们保存模型,把它在测试数据集上运行,并验证它能否比基准模型做得更好: ? 约8,200 的均方根误差,这是比采用历史平均值而得到的 12,700 要好得多的结果。...谷歌云平台中的公共数据集包括来自美国国家海洋与气象局的天气信息。要想更多地了解谷歌云平台和它的大数据、机器学习能力,你也可以注册谷歌云的培训课程。 来源:cloud.Google.com
下载数据集请登录爱数科(www.idatascience.cn) 该数据集为公共交通数据集,包含6个字段。包括公交车的类型、制造年份、公交车名、国家等字段。 1. 字段描述 2....数据预览 3. 字段诊断信息 4. 数据来源 来源Kaggle
下载数据集请登录爱数科(www.idatascience.cn) 本数据集包含北京市1978-2017年的运营线路条数、运营线路长度、客运量的统计数据,可用于时序数据可视化。...(注:自2006年5月1日起,公共电汽车、轨道交通售票采取刷卡方式,并陆续进行了票制票价改革,客运量统计口径方法相应调整,因此与历史数据不可比。) 1. 字段描述 2. 数据预览 3....数据来源 https://data.beijing.gov.cn/zyml/ajg/stjj/12889.htm
下载数据集请登录爱数科(www.idatascience.cn) 巴西圣保罗州公职人员的月薪是州政府透明度门户网站上的公共数据,数据中包含该州2017年10月所有工人的工资,记录刚好超过一百万。...雇员的姓名由变量id匿名表示。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4....数据来源 http : //www.transparencia.sp.gov.br/buscaRemunera
更不用说,在临时数据节点关闭之前,您必须将数据从HDFS复制回S3,这对于任何严谨的大数据分析都不是理想的方法。 那么事实上Hadoop和MapReduce是基于批处理的,因此不适合实时分析。...更不用说虚拟化和Hadoop在目前虚拟化和公共云硬件和软件技术的状态下不太适合 - 这是一个单独的讨论。...BigQuery将为您提供海量的数据存储以容纳您的数据集并提供强大的SQL,如Dremel语言,用于构建分析和报告。...这实际上是Dremel和BigQuery擅长的,因为它为您提供了SQL功能,例如子选择(功能),这些功能在NoSQL类型的存储引擎中通常找不到。...您的ETL引擎通常必须注意何时去插入新的事实或时间维度记录,并且通常包括“终止”记录历史记录集谱系中当前记录的前一个记录。
下载数据集请登录爱数科(www.idatascience.cn) 该数据集为公共自行车系统共享数据集,该数据来自BIXI Montréal车站和自行车管理系统。不包括少于1分钟或超过2小时的行程。...所使用的站点标识符与站点状态数据集的标识符相对应。 1. 字段描述 2. 数据预览 3. 字段诊断信息 4. 数据来源 来源Kaggle。
下载数据集请登录爱数科(www.idatascience.cn) 中国公共图书馆数据集包含2001-2019年中国各省级行政区的公共图书馆数量。本数据集适用于可视化分析和时序建模。 1....数据预览 3. 字段诊断信息 4. 数据来源 http://www.stats.gov.cn/
AWS Athena和Google BigQuery都是亚马逊和谷歌各自云上的优秀产品,有着相当高的用户口碑。...它们都属于无服务器交互式查询类型的服务,能够直接对位于云存储中的数据进行访问和查询,免去了数据搬运的麻烦。...对于在公有云的原生存储上保存有大量数据的许多客户而言,此类服务无疑非常适合进行灵活的查询分析,帮助业务进行数据洞察。...AWS Athena和Google BigQuery当然互相之间也存在一些侧重和差异,例如Athena主要只支持外部表(使用S3作为数据源),而BigQuery同时还支持自有的存储,更接近一个完整的数据仓库...这里使用的测试数据来自一个国外的公开数据集,是中东某地区的信用卡借贷数据,是公开且脱敏的。
Metastasis》,链接是:https://doi.org/10.1016/j.ccell.2020.10.012 ,里面使用了一个公共数据集,来根据自己感兴趣的基因的状况,算是一个比较好的数据复用思路...假如你的课题进展到后期了,也定位到了感兴趣的基因,如果是有意设计临床病人队列来看你感兴趣的基因的一些情况,不妨先搜索看看公共数据库,是不是有一些现成的资源,能省一点就是一点,毕竟咱科研经费可都是纳税人民的血汗钱啊...不过,我发现了另外一个有意思的事情,就是他这个研究居然是比他所利用的公共数据集的文章更早发表。 在该文献里面查询关键词,可以定位到这样的描述: ?...是德国的 Prostate Cancer Systems Biology 研究,然后搜索该数据集链接,到达了2020年12月的文章,是:《Convergent network effects along...而且引用了他们数据集的文章发表在2020年11月,《Senescence Reprogramming by TIMP1 Deficiency Promotes Prostate Cancer Metastasis
下载数据集请登录爱数科(www.idatascience.cn) 这是 glassdoor 中数据科学职位的数据集。 1. 字段描述 2. 数据预览 3....数据来源 来源于Kaggle。
Iris 数据集的那些示例你是不是已经用腻了呢?不要误会我的意思,Iris 数据集作为入门用途来说是很不错的,但其实网络上还有很多有趣的公共数据集可以用来练习机器学习和深度学习。...该数据集本质上是由两个数据集组成的,每个数据集包含 344 只企鹅的数据。...有趣的是,这是一个不均衡的数据集,所以你也可以用它做这种练习。在这个数据集上实现高精度也非易事,基线性能在 64% 左右,而最高精度在 94% 左右。...本质上,这个数据集是 MNIST 数据集的变体,它与 MNIST 数据集具有相同的结构,也就是说它有一个 60,000 个样本的训练集和一个 10,000 个服装图像的测试集。...这些名称本质上是我们的标签,这意味着我们将使用这些名称定义目标。 7.1 数据集样本 我们加载数据,看看它是什么样的: 7.2 这个公共数据集适合解决什么问题? 这个数据集有两重目标。
原作 mlmemoirs 郭一璞 编译 量子位 报道 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,量子位为大家分享一下.../enron/ 亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。...https://mimic.physionet.org/ 一般数据集 除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~ 公共政府数据集 Data.gov:该网站可以从多个美国政府机构下载数据...不仅有美国的数据,也有一些世界上其他地方的数据。...故其中有一些链接,需要先探究访问外国网站方式,再打开。 暂时手头没有工具怎么办?先收藏呀! 在最下边点“阅读原文”,可前往知乎版,有可戳的超链接。 — 完 —
作者 | mlmemoirs 编译 | 郭一璞 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 提前说下须知:.../enron/ 亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。...https://mimic.physionet.org/ 02 一般数据集 除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~ 公共政府数据集 Data.gov:该网站可以从多个美国政府机构下载数据...,也有一些世界上其他地方的数据。...https://nces.ed.gov/ 英国数据服务:英国最大的社会、经济和人口数据集。 https://www.ukdataservice.ac.uk/ 数据美国:全面可视化的美国公共数据。
tabula-murisa网页 以上两个数据库主要基于两篇已发表的文献搭建而成,主要目的是通过网页版的形式展示文章中的结果,并非以收集并存储多种来源的公共单细胞测序数据为目的。...用户在JingleBells上可以直接下载到单细胞数据的BAM文件,但比较可惜的是并非每个数据集的BAM文件都可以下载。 ?...JingleBells主页:http://jinglebells.bgu.ac.il/ 癌症细胞的高度异质性对癌症研究构成了重大挑战,而单细胞测序技术的兴起为研究癌症细胞的不同功能状态提供了机会,从而使得癌症的单细胞数据集大量积累...用户可以点击主页上的“download”按钮进入下载界面,但是在该界面中用户只能下载到单细胞数据集的功能状态配置文件,而原始测序数据用户必须通过GEO accession进入NCBI中下载。...此外,该数据库使用的数据集均为2018年7月份之前发表的数据,并未收录最新的高通量单细胞数据。 ?
来源:机器学习算法那些事本文约3000字,建议阅读6分钟本文整理一张50个醉驾机器学习公共数据集的榜单。...外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 提前说下须知: 一、寻找数据集的意义 根据CMU的说法,寻找一个好用的数据集需要注意一下几点.../enron/ 亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。...https://mimic.physionet.org/ 四、一般数据集 除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~ 公共政府数据集 Data.gov:该网站可以从多个美国政府机构下载数据...,也有一些世界上其他地方的数据。
根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单,为大家分享一下~ 提前说下须知: 一、寻找数据集的意义 根据CMU的说法,寻找一个好用的数据集需要注意一下几点:.../enron/ 亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。...https://mimic.physionet.org/ 一般数据集 除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~ 公共政府数据集 Data.gov:该网站可以从多个美国政府机构下载数据...,也有一些世界上其他地方的数据。...https://nces.ed.gov/ 英国数据服务:英国最大的社会、经济和人口数据集。 https://www.ukdataservice.ac.uk/ 数据美国:全面可视化的美国公共数据。
best-public-datasets-for-machine-learning-d80e9f030279 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单.../enron/ 亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。...一般数据集 除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~ 公共政府数据集 Data.gov:该网站可以从多个美国政府机构下载数据,包括各种奇怪的数据,从政府预算到考试分数都有。...,也有一些世界上其他地方的数据。...https://nces.ed.gov/ 英国数据服务:英国最大的社会、经济和人口数据集。 https://www.ukdataservice.ac.uk/ 数据美国:全面可视化的美国公共数据。
近日,Mozilla发布了当前可使用的,规模最大的公共语音数据集Common Voice,数据集涵盖18种语言,由42000多名贡献者提供的近1400小时的语音数据构成。...从一开始,我们对Common Voice的愿景就是构建世界上最多样化的语音数据集,为构建语音技术进行优化。...在这个版本中,不断增长的Common Voice数据集目前是同类数据集中规模最大的,成千上万的人将他们的声音和原始的手写文字贡献给公共领域(CC0)。...完整的数据集可以在Common Voice站点上(https://voice.mozilla.org/zh-CN/datasets)进行下载。...我们的总体目标仍然是:为世界上所有寻求构建和使用语音技术的人提供更多、更好的数据。因为竞争和开放有利于创新。因为较小的语言是一个访问和公平的问题。因为隐私和控制很重要,尤其是对你的声音。
二极管:密集的室内和室外深度数据集 https://diode-dataset.org/ DIODE(密集的室内和室外深度)是一个数据集,其中包含各种高分辨率的彩色图像以及准确,密集,宽范围的深度测量值...这是第一个包含使用一个传感器套件获得的室内和室外场景的RGBD图像的公共数据集。 麻省理工学院 麻省理工学院-您可以自由使用:使用,复制,修改,合并,发布,分发,再许可和/或出售作品的副本。...我们建立了一个原始的机器学习数据集,并使用StyleGAN(NVIDIA的一项奇妙资源)构造了一组逼真的100,000张面孔。...我们的数据集是通过在过去2年中在我们的工作室中拍摄29,000多张69种不同模型的照片而构建的。 非商业 只能用于研究和教育目的。禁止用于商业用途。...TabFact:用于基于表的事实验证的大规模数据集 https://tabfact.github.io/ 我们引入了一个名为TabFact(网站:https://tabfact.github.io/)的大规模数据集
原作 mlmemoirs 郭一璞 编译 量子位 报道 | 公众号 QbitAI 外国自媒体mlmemoirs根据github、福布斯、CMU官网等信息,整理了一张50个最佳机器学习公共数据集的榜单.../enron/ 亚马逊评论:包含18年来亚马逊上的大约3500万条评论,数据包括产品和用户信息,评级和文本审核。...一般数据集 除了机器学习专用的数据集,还有一些其他的一般数据集,可能很有趣~ 公共政府数据集 Data.gov:该网站可以从多个美国政府机构下载数据,包括各种奇怪的数据,从政府预算到考试分数都有...不仅有美国的数据,也有一些世界上其他地方的数据。...故其中有一些链接,需要先探究访问外国网站方式,再打开。 暂时手头没有工具怎么办?先收藏呀!
领取专属 10元无门槛券
手把手带您无忧上云