专栏首页IT派30个免费且很棒的公共数据源分享

30个免费且很棒的公共数据源分享

机器学习、人工智能、区块链、预测分析——所有令人惊叹的技术都承诺将革新商业和社会。

但如果没有数据的话,这些技术就一无是处。所幸的是,对于那些没有资源有条不紊收集每一条有用信息的企业和组织而言,他们可以免费从网上得到庞大(并且不断增加)的数据。

以下是2018年的30个免费在线大数据来源:

1、世界银行开放数据(WorldBankOpenData),是涵盖了全球人口统计数据、大量经济和发展指标的数据集。

2、国际货币基金组织数据(IMFData),国际货币基金组织公布的国际财务状况、债务率、外汇储备、商品价格和投资数据。

3、美国国家教育统计中心(The US National Center for Education Statistics Data),提供了覆盖美国和世界各地的教育机构和教育人口统计的数据。

4、英国数据中心(TheUKDataCentre)是英国最大的社会、经济和人口的数据集。

5、FiveThirtyEight,有大量提供政治和体育问题舆论数据的民意调查。

6、FBI统一犯罪报告(FBIUniformCrimeReporting),联邦调查局负责编辑和出版国家犯罪统计数据,并在国家、州和县级提供免费数据。

7、美国司法局(BureauofJustice),在这里你可以找到关于美国执法机构、监狱、假释和缓刑机构及法院的数据。

8、QlickDataMarket提供免费包,可访问涵盖世界人口、货币、发展指标和天气数据的数据集。

9、美国宇航局外行星存档(NASAExoplanetArchive)的公共数据集涵盖了由美国宇航局空间探索任务收集的行星和恒星数据。

10、联合国贸易数据库(UNComtradeDatabaseStatistics)统计是由联合国汇编并出版的资料,包括ComtradeLab,展示了如何使用尖端分析和工具从数据中提取价值。

11、金融时报市场数据(FinancialTimesMarketData)是关于全球金融市场的最新信息,包括股票价格指数、商品和外汇。

12、谷歌趋势(GoogleTrends)是检查和分析全球互联网上搜索活动和趋势新闻的数据。

13、推特(Twitter),Twitter的优势在于大多数对话都是公开的,这意味着大量的数据可以通过其API获得,谁正在谈论什么,何地、何时以及为什么。

14、谷歌学术(GoogleScholar)包括学术论文、期刊、书籍和法律判例法的文本内容。

15、Instagram,与Twitter一样,Instagram的帖子和对话默认为公开,其API允许对喜欢、提及和商业细节进行分析。

16、OpenCorporates是全球最大的企业开放数据库。

17、GlassdoorAPI提供了有关职位空缺、候选人、薪水和员工满意度的信息,可通过他们的开发者API获得。

18、IMDBDatasets,是从网络上最大的电影、电视和从业人员中获得的多种格式数据集。

19、OpenLibraryDataDumps是关于世界各地图书馆书籍目录的数据集。

20、LabelledFacesintheWild整理并标记了13,000个人脸图像,用于开发涉及面部识别的应用。

21、MicrosoftMarco是微软的开放式机器学习数据集,用于阅读理解和问题回答的培训系统。

22、机器学习数据集知识库(Machine Learning Dataset Repository)由集合了由参与机器学习项目的数据科学家贡献的开放数据集。

23、易趣市场数据洞察(eBayMarketDataInsights)提供了来自eBay的数以百万计的在线销售和拍卖数据。

24、自然历史博物馆数据门户(Natural History Museum Data Portal)提供了关于伦敦博物馆藏品中近400万个历史标本的信息,以及自然世界的科学录音。

25、欧洲核子研究中心开放数据(CERNOpenData),欧洲核子研究中心开展的粒子物理实验提供了超过1PB的数据。

26、OneMillionAudioCoverImages数据集托管在archive.org上,涵盖世界各地发布的音乐,用于图像处理研究

27、CompletePublicRedditCommentsCorpus,2007年至2015年期间在Reddit上发布的10多亿份公共评论,用于训练语言算法。

28、MicrosoftAzureDataMarketsFreeDatasets,提供了涵盖从农业到天气所有内容的免费数据集。

29、IrishElectricVehicleChargePointStatus收集了这个负责爱尔兰共和国和北爱尔兰电动汽车充电站网络数据机构的数据。

30、LondonAir提供了来自伦敦各地的污染和空气质量数据。

本文分享自微信公众号 - IT派(transfer_3255716726)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-04-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 推荐!Kaggle首个机器学习调查报告结果

    Kaggle 是互联网上最著名的数据科学竞赛平台之一,今年 3 月 8 日,这家机构被谷歌收购,6 月 6 日又宣布用户数量超过了 100 万人。最近,这一社区...

    IT派
  • 花花公子跟风删除Facebook主页,区块链技术可打破互联网垄断

    在剑桥分析丑闻之后,花花公子响应了“删除Facebook”的号召,于27日宣布退出Facebook。

    IT派
  • 每个数据科学家都应该学习4个必备技能

    IT派 - {技术青年圈} 持续关注互联网、大数据、人工智能领域 摘要: 作为一个数据科学家你必须要掌握的四个必备技能,值得每个想要成为数据科学家和已经成为...

    IT派
  • 十张图看懂未来的大数据世界

    摘要 随着互联网云时代的来临,大数据与云计算就像一个硬币的正反两面,势必会影响到社会生活的方方面面,改变我们现有的规则和秩序。伴随着大数据与云计算产业的不断发展...

    灯塔大数据
  • 【24页ppt干货】2014中国大数据整体市场专题研究报告

    报告核心:大数据时代的变革体现在数据对于决策、流程和产品的新驱动方式;云计算、移动互联网、社交网络和物联网等推动了大数据技术的逐步成熟。 大数据生态系统:由底层...

    小莹莹
  • 数据猿专访 | 北大新媒体研究院副院长刘德寰:大数据将在公共卫生领域迎来爆发式发展

    <数据猿导读> 刘德寰教授在接受数据猿采访时说到,公共卫生跟人的生命密切关联,未来,大数据一定会在公共卫生领域有巨大的应用前景跟爆发式发展;但同时也很担忧,现在...

    数据猿
  • 投稿 | 现阶段我为什么不看好纯粹的数据交易?

    原力大数据创始人江颖表示,尽管大数据交易平台建设正值爆发期,数据交易号称的市场规模也在不断壮大,同时也有国家大力的政策支持。但是短期内,我仍然不看好数据交易,因...

    数据猿
  • 《大数据产业”十三五“规划(2016-2020)》正式发布!

    导读:近日,工业和信息化部正式发布了《大数据产业发展规划(2016-2020年)》(以下简称《规划》),明确了大数据产业发展在技术产品、应用能力、生态体系建设等...

    钱塘数据
  • 公司利用大数据的三大模式

    导读:根据所提供价值的不同来源,分别出现了三种大数据公司。这三种来源是指:数据本身、 技能与思维。出现的三种大数据公司分别是基于数据本身的公司、基于技能的公司、...

    钱塘数据
  • 盛世的阴影:大数据时代的挑战渐渐浮出水面

    数据猿导读 6月29日,由数据猿主办的金融大数据峰会在上海盛大召开,现场汇集了众多来自大数据领域内执牛耳的重量级嘉宾。大数据被誉为第四次工业革命的能源,整个产业...

    数据猿

扫码关注云+社区

领取腾讯云代金券