专栏首页机器学习AI算法工程有哪些网站用爬虫爬取能得到很有价值的数据?

有哪些网站用爬虫爬取能得到很有价值的数据?

作者:林骏翔

想做数据,首先从获取数据开始。但是对于需要获取什么数据,数据可以干什么,很多人还是一头雾水,知乎达人林骏翔给出了参考。

题主问了有什么网站,能用来做什么。我给出几个API网站吧,做APP用的可能比较多,不过也可以用在日常生活中。

一、生活服务

手机话费充值。

天气查询。

快递查询。

健康食谱。

查医院。

水电煤缴费。

电影大全。

谜语、歇后语、脑筋急转弯。

音乐搜索。

健康知识。

百度糯米、团购等信息。

彩票开奖

以上接口都来自网站:http://www.apix.cn/services/category

细心的人会发现,这些功能简直是遍地都是啊,支付宝、微信什么的一大堆,哪用那么麻烦!是的,但我相信这些可能为一些不太了解相关信息的人提供了帮助。不过,虽然这些功能很多APP都有,如果自己有空闲时间又懂得编程,不喜欢别人的UI设计,自己做一做也是挺好玩的。比如:生活枯燥了,把这些谜语歇后语等根据个人喜好定时推送到自己的手机,放松身心;把一些健康小知识在空闲时间推送给自己,提醒自己……

国内类似的网站还有:

API数据接口_开发者数据定制https://www.juhe.cn/

API Store_为开发者提供最全面的API服务http://apistore.baidu.com/

API数据接口_免费数据调用-91查|91cha.comhttp://www.91cha.com/

除此之外还有一些门户网站提供了一些API接口,比如豆瓣、新浪、百度等等。

二、金融数据

1.股票

①新浪财经

最多人用的就是新浪财经了,因为它是免费的,并且使用起来也不难。以下是网上找的教程:获取历史和实时股票数据接口(http://www.cnblogs.com/seacryfly/articles/stock.html)

②东方财富网

网站提供了大量信息,也是基本面投资者的好去处。可以查看财务指标或者根据财务指标选股(如净资产收益率): >

这些都是很好的投资参考,当然还有其它功能有对应的API,可以自己分析一下。

③中财网

http://data.cfi.cn/cfidata.aspx提供各种产品的数据

(国内很多功能类似网站,如和讯、网易财经、雪球等等,具体的我没有一一试验就不放上来了,各位可以自己去试试,下同。)

2.大宗商品

①黄金头条——用资讯帮你赚钱http://www.goldtoutiao.com/

这里提供了各种大宗商品的行情,也可以分析获取。包括技术分析方面。

②当然还有外国网站:http://www.investing.com/

3.美股等综合类(其实新浪财经和东方财富等也算是国内综合的了,就不一一列举了)

①Wind资讯。很多机构用的都是这里的数据,当然普通个人是拿不到的,不过如果你是财经院校的学生,他们会提供免费的数据。详见官网。

②MarketData Feed and API

(http://www.xignite.com/)外国网站,提供了大量数据,付费。有试用期。

③Quandl Financial and Economic Data

(https://www.quandl.com/)同上。部分免费。

④96Stocks APIs: Bloomberg, NASDAQ and E*TRADE

外国网站整合的96个股票API合集,可以看看。

⑤雅虎财经http://www.finance.yahoo.com/

香港版https://hk.finance.yahoo.com/

下面提到的Quandl网站有一个他们自己的Python库,叫Quandl,可惜也是收费的。

pip install Quandl

://tushare.org/httpfundamental.html#id4 国内好心人做的开源财经数据接口(觉得好的可以捐助一下)。这里几乎可以获取到A股的所有信息了,还包括一些经济数据。重点是他不仅免费,还提供了一个Python库tushare。

三、其它

撇去上面的API不说,如果单单爬取网页上的内容下来,那就太多可以爬的了。

如:1.爬取网站上的图片。包括贴吧、知乎、Tumblr、轮子哥、XXX(你懂的)。

2.爬取影评、电影资讯、图书等等。比如豆瓣电影。轻轻松松掌握好书好电影。

3.爬取社交网络。比如新浪微博,Twitter。(Twitter提供了API,可以提交关键字等信息爬取搜索结果中的每一条内容。)爬完可以对整个社交网络群体做个分析,情绪、作息、区域……

4.一些网站有你喜欢的文章或者帖子,但是他们没有APP或者是APP做得不友好,你可以直接爬取页面信息推送到手机上。

本文分享自微信公众号 - 大数据挖掘DT数据分析(datadw)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-05-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 15 分钟破解网站验证码

    作者: xiaochao 原文:http://www.bugcode.cn/break_captcha.html 概述 很多开发者都讨厌网站的验证码,特别是写网...

    程序员宝库
  • 一文揭秘,爬虫那些不为人知的套路

    1、真实世界的爬虫比例 大家应该听过一句话吧,大概意思是说,整个互联网上大概有50%以上的流量其实是爬虫。第一次听这句话的时候,我还不是很相信,我觉得这个说法实...

    BestSDK
  • 一个scrapy框架的爬虫(爬取京东图书)

    我们的这个爬虫设计来爬取京东图书(jd.com)。 scrapy框架相信大家比较了解了。里面有很多复杂的机制,超出本文的范围。 1、爬虫spider tips:...

    用户1225216
  • 【数说】从知乎320万用户爬取的信息分析与数据可视化

    art 1: 动机 作为一个知乎的重度用户,我深深的被知乎社区的高素质群体所吸引,这也是我在微信朋友圈、新浪微博、baidutieba等社区见不到的东西。那么为...

    钱塘数据
  • 网站防刷方案

    网站防刷方案 网站重复请求解决方案 摘要 这是讲述如何防止重复请求你的网站, 包括如,爬虫,数据采集,刷排名,批量注册,批量发帖,利用漏洞获取网站数据等等。 -...

    netkiller old
  • 使用多个Python库开发网页爬虫(一)

    21CTO社区导读:在本篇文章里,我们将讨论使用Python进行网页抓取以及如何引用多个库,如Beautifusoup,Selenium库,以及JavaScri...

    企鹅号小编
  • 我的爬虫技术经历

    1. 前言 爬虫,这个词很多朋友第一次听到,第一感觉应该是各种小虫子,应该不会和某种计算机技术联系在一起。我第一次听到这个词,就是这样一个感觉。但是当这个这个词...

    程序员宝库
  • 【钱塘号】用R语言爬取美国总统的twitte进行数据分析

    Twitter是一个流行的社交网络,这里有大量的数据等着我们分析。Twitter R包是对twitter数据进行文本挖掘的好工具。 本文是关于如何使用Twitt...

    钱塘数据
  • 爬虫抓取的门道——来看这篇

    本文首发于我的个人博客,同步发布于SegmentFault专栏,非商业转载请注明出处,商业转载请阅读原文链接里的法律声明。 web是一个开放的平台,这也奠定了w...

    程序员宝库
  • 设计和实现一款轻量级的爬虫框架

    作者:王爵nice 链接:https://blog.biezhi.me/2018/01/design-and-implement-a-crawler-fram...

    程序员宝库

扫码关注云+社区

领取腾讯云代金券