有哪些网站用爬虫爬取能得到很有价值的数据?

作者:林骏翔

想做数据,首先从获取数据开始。但是对于需要获取什么数据,数据可以干什么,很多人还是一头雾水,知乎达人林骏翔给出了参考。

题主问了有什么网站,能用来做什么。我给出几个API网站吧,做APP用的可能比较多,不过也可以用在日常生活中。

一、生活服务

手机话费充值。

天气查询。

快递查询。

健康食谱。

查医院。

水电煤缴费。

电影大全。

谜语、歇后语、脑筋急转弯。

音乐搜索。

健康知识。

百度糯米、团购等信息。

彩票开奖

以上接口都来自网站:http://www.apix.cn/services/category

细心的人会发现,这些功能简直是遍地都是啊,支付宝、微信什么的一大堆,哪用那么麻烦!是的,但我相信这些可能为一些不太了解相关信息的人提供了帮助。不过,虽然这些功能很多APP都有,如果自己有空闲时间又懂得编程,不喜欢别人的UI设计,自己做一做也是挺好玩的。比如:生活枯燥了,把这些谜语歇后语等根据个人喜好定时推送到自己的手机,放松身心;把一些健康小知识在空闲时间推送给自己,提醒自己……

国内类似的网站还有:

API数据接口_开发者数据定制https://www.juhe.cn/

API Store_为开发者提供最全面的API服务http://apistore.baidu.com/

API数据接口_免费数据调用-91查|91cha.comhttp://www.91cha.com/

除此之外还有一些门户网站提供了一些API接口,比如豆瓣、新浪、百度等等。

二、金融数据

1.股票

①新浪财经

最多人用的就是新浪财经了,因为它是免费的,并且使用起来也不难。以下是网上找的教程:获取历史和实时股票数据接口(http://www.cnblogs.com/seacryfly/articles/stock.html)

②东方财富网

网站提供了大量信息,也是基本面投资者的好去处。可以查看财务指标或者根据财务指标选股(如净资产收益率): >

这些都是很好的投资参考,当然还有其它功能有对应的API,可以自己分析一下。

③中财网

http://data.cfi.cn/cfidata.aspx提供各种产品的数据

(国内很多功能类似网站,如和讯、网易财经、雪球等等,具体的我没有一一试验就不放上来了,各位可以自己去试试,下同。)

2.大宗商品

①黄金头条——用资讯帮你赚钱http://www.goldtoutiao.com/

这里提供了各种大宗商品的行情,也可以分析获取。包括技术分析方面。

②当然还有外国网站:http://www.investing.com/

3.美股等综合类(其实新浪财经和东方财富等也算是国内综合的了,就不一一列举了)

①Wind资讯。很多机构用的都是这里的数据,当然普通个人是拿不到的,不过如果你是财经院校的学生,他们会提供免费的数据。详见官网。

②MarketData Feed and API

(http://www.xignite.com/)外国网站,提供了大量数据,付费。有试用期。

③Quandl Financial and Economic Data

(https://www.quandl.com/)同上。部分免费。

④96Stocks APIs: Bloomberg, NASDAQ and E*TRADE

外国网站整合的96个股票API合集,可以看看。

⑤雅虎财经http://www.finance.yahoo.com/

香港版https://hk.finance.yahoo.com/

下面提到的Quandl网站有一个他们自己的Python库,叫Quandl,可惜也是收费的。

pip install Quandl

://tushare.org/httpfundamental.html#id4 国内好心人做的开源财经数据接口(觉得好的可以捐助一下)。这里几乎可以获取到A股的所有信息了,还包括一些经济数据。重点是他不仅免费,还提供了一个Python库tushare。

三、其它

撇去上面的API不说,如果单单爬取网页上的内容下来,那就太多可以爬的了。

如:1.爬取网站上的图片。包括贴吧、知乎、Tumblr、轮子哥、XXX(你懂的)。

2.爬取影评、电影资讯、图书等等。比如豆瓣电影。轻轻松松掌握好书好电影。

3.爬取社交网络。比如新浪微博,Twitter。(Twitter提供了API,可以提交关键字等信息爬取搜索结果中的每一条内容。)爬完可以对整个社交网络群体做个分析,情绪、作息、区域……

4.一些网站有你喜欢的文章或者帖子,但是他们没有APP或者是APP做得不友好,你可以直接爬取页面信息推送到手机上。

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-05-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏小狼的世界

你所应该知道的云计算

感觉像是云计算的一个推崇者,为云计算在做广告,Robyn Peterson的文章What you need to know about cloud comput...

1044
来自专栏CVer

重磅 | GitHub 已确认被微软收购!

GitHub是一个庞大的代码库,已经成为托管他们项目,文档和代码的开发人员和公司的流行代码。 苹果,亚马逊,谷歌和许多其他大型科技公司都使用GitHub。 微软...

984
来自专栏互联网数据官iCDO

新网站Branding战略无从下手?教你几招赶紧上手

作者:董梁 审校:骆姿亦 本文长度为1405字,预估阅读时间5分钟。 导读:本文作者Venchito Tampon从网站设计和结构、内容策略、传播品牌信息三个...

3409
来自专栏云计算D1net

IDC转型成为云服务重要参与者

“云”是生活在数据中心的,依赖于数据中心存在。在当今不断变化的环境中,更多业务和数据放在数据中心,现在数据中心几乎被用于存储所有的东西。事实上,今天几乎所有的新...

2245
来自专栏较真的前端

未来的前端工程师

2006
来自专栏数据和云

Oracle 12c体系结构挂图

在下周上海举办的甲骨文全球大会上, 我们为Oracle技术爱好者们精心准备了很多礼品,图片中的“Oracle Database 12c 体系结构图”就是其中之一...

2695
来自专栏我是攻城师

云计算之浅入了解

3334
来自专栏互联网数据官iCDO

做营销的你,用对数据分析工具了吗?

一个流程会很容易让人养成一个习惯,而若无意识或干预的话,习惯可能就不会再被改变了。

751
来自专栏程序员宝库

猝不及防!这次,Google真的“造人”了!5月编程语言指数榜:Python首次夺冠;Riot.js 3.10.0发布

1885

物联网软件开发和交付策略

当你进入汽车时,车会识别出你。它知道现在是星期五的下午6点。在咨询了您的智能手机日历之后,汽车知道在星期五您总是去旧金山市中心的Hotel Nikko游泳。然后...

3559

扫码关注云+社区