专栏首页数据森麟世界上最有价值的不是石油,而是数据!

世界上最有价值的不是石油,而是数据!

作者 | 爱德宝器 来源 | 数据管道

摘要

"The world's most valuable resource is no longer oil,but data"

一种新的商品催生出一个利润丰厚、发展迅速的行业。这促使反垄断监管机构介入,从而约束那些能够控制这种商品流动的巨头。

一百年前,石油就是这样一种资源。现在,一些经营数据的巨头引发了类似担忧,这些数据将成为数字时代的石油。

目前处于数据驱动型经济中,如果无法分析当前或未来的趋势,任何组织都无法生存下去。抢夺数据已经成为决定下一步行动方案的关键。

作为数据科学领域的从业者来说,对于数据的需求更为强烈。

本次整理了一些NBA、社交网络、图像、语音、文本、时间序列、人文历史、金融等领域的免费和开源的数据集资源。(从正文带蓝色下划线链接自取)。

数据集

一、NBA球员数据集:

  • https://www.basketball-reference.com/players/l/linje01.html
  • http://china.nba.com/statistics
  • http://www.stat-nba.com

二、图像、文本、语言数据集

图像

1、由79302017幅图像组成的数据集,每幅图像为32x32像素彩色图像。

http://horatio.cs.nyu.edu/mit/tiny/data/index.html

2、人脸识别数据集。

http://www.face-rec.org/databases/

3、一个可搜索的图像数据库。

http://www.image-net.org/index

语音:

1、CMU语音识别数据库。

http://www.speech.cs.cmu.edu/databases/

2、对音乐分析的数据集。

http://users.cis.fiu.edu/~lli003/Music/music.html

3、100万首歌曲的数据集

https://labrosa.ee.columbia.edu/millionsong/

文本:

1、用于构建机器学习推荐系统的1.5 TB数据集

https://webscope.sandbox.yahoo.com/catalog.php?datatype=r&did=75&guccounter=1

三、金融和商业数据集:

1、ebay拍卖招标数据集。

http://www.modelingonlineauctions.com/datasets

2、纽约市警察局的交通事故数据(csv格式)。

http://nypd.openscrape.com/#/

3、从aiHit数据库中随机抽取的10,000家英国公司的信息

https://www.aihitdata.com/redirect/cons/datasets.html

4、美国股票新闻数据

http://dataju.cn/Dataju/web/datasetInstanceDetail/220

5、美国金融客户投诉数据

http://dataju.cn/Dataju/web/datasetInstanceDetail/229

6、Airbnb 开放的民宿信息和住客评论数据 http://dataju.cn/Dataju/web/datasetInstanceDetail/360

四、政府出台的相关数据

1、健康、环境、能源等数据。

http://data.un.org/

2、经济时间系列,由美国政府机构制作,以多种形式和媒体发行

http://inforumweb.umd.edu/econdata/econdata.html

3、USGovXML是一个由美国政府提供的公开可用web服务和XML数据源的索引

http://usgovxml.com/

五、技术、社交网络、人文历史等数据集

1、80 Tb的存档web爬虫数据。

http://blog.archive.org/2012/10/26/80-terabytes-of-archived-web-crawl-data-available-for-research/

2、一个包含许多“开放”社交网络分析数据集的可访问库的站点。

http://ww31.growmeme.com/overview

3、斯坦福大型网络数据集收集。

http://snap.stanford.edu/data/index.html

4、一个包含谷歌图书公司的数据集。

https://aws.amazon.com/cn/datasets/google-books-ngrams/

5、基因遗传数据集。

http://portals.broadinstitute.org/cgi-bin/cancer/datasets.cgi

6、地球撞击陨石数据。

https://www.analyticbridge.datasciencecentral.com/profiles/blogs/registered-meteorites-that-has-impacted-on-earth-visualized

机器学习数据集常用搜索网站

1、Kaggle

https://www.kaggle.com/competitions

2、加州大学欧文分校机器学习库。

http://archive.ics.uci.edu/ml/index.php

3、Google数据集搜索。

https://toolbox.google.com/datasetsearch

4、Datahub,分享高质量数据集平台

https://datahub.io/

5、用于上传和查找数据集的机器学习数据集存储库。

https://www.webdoctx.com/www.mldata.org

本文参考:

  • 《经济学人》报道。
  • https://datahub.io/。
  • Google数据集搜索。
  • Github数据集相关贡献。
  • http://mt.sohu.com/20180209/n530607148.shtml。

本文分享自微信公众号 - 数据森麟(shujusenlin)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-03-24

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 相关代码地址

    R爬虫&可视化第5季-图解欧洲五大联赛:https://github.com/shujusenlin/football_data

    数据森麟
  • 那些你可能不知道的b站奇技淫巧

    b站在国内视频网站是一股清流,一个看视频不用等60s广告的网站,今天就说说这个二次元网站的一些实用工具/技巧。

    数据森麟
  • AI助你应对“你(扔的)是那种垃圾”的灵魂拷问

    近期垃圾分类成为了一个热门话题,原来直接一次性扔掉的垃圾,现在都需要分门别类进行投放。从今年7月1日起,新的《上海市生活垃圾管理条例》正式开始施行,号称史上最严...

    数据森麟
  • 天气和气象数据网站集合,以及.nc数据的打开方法

    我们当然可以去中国气象数据网(http://data.cma.cn/)那么会注册麻烦,通过又慢,历史数据获取时间范围极其有限。这时候就可以看国外的网站了,当然准...

    bugsuse
  • 世界上最有价值的不是石油,而是数据!

    "The world's most valuable resource is no longer oil,but data"

    挖数
  • 各行业领域数据集整理送给大家!

    "The world's most valuable resource is no longer oil,but data"

    挖数
  • 世界上最有价值的不是石油,而是数据!

    "The world's most valuable resource is no longer oil,but data"

    Python进阶者
  • 数据分析师哪里找数据?

    它的功能很齐全,可以做单个抖音号的数据管理,查看日常的运营情况;也可以对单个视频做数据追踪,知晓它的传播情况。除此之外,通过灰豚数据,你还能搜集到热门视频、音乐...

    开心鸭
  • 可以获取各类大数据的网站?

    今天想给大家推荐一些可以免费或者只需要花费很小的代价就可以获取数据的网站或者方式,一下推荐的网站格式为标题加简单那介绍加网站的一张配图,你可以按照介绍取寻找你需...

    小莹莹
  • Django2.2搭建一个简易的网站下载youtube视频

    https://github.com/nficano/pytube/issues/591

    用户7010445

扫码关注云+社区

领取腾讯云代金券