关于爬虫

我是今年实习的时候接触的Python,接触了具体的代码,以前只知道Python比较好玩,但是没用过。然后在公司以后项目用的是Python的Django框架,就一直学习Python,学习框架。现在在学习Python的爬虫框架scrapy,一直是挺喜欢爬虫的,因为基本可以爬到所有的公开数据,也挺好玩的,然后最开始是直接的基础的requests和urlib包,最后就决定试试一些比较大型的网站。

美团的是我爬虫爬取的第一个网站,也就是一边学习,一边写代码。从最基本的地区信息,一直爬到最详细的美食模块数据。中间也踩了很多坑,也学习了好多。最后是由于爬取详细的美食数据必须要有一个比较稳定的代理IP,最好是动态的,这样是最容易拿到所有的数据,这是需要花钱的,我就没在做了。但是具体的数据怎么拿到,怎么做,怎么保存,还是学到很多的。

下一步,我是想拿智联的数据,做一些数据分析。数据爬到其实挺容易的,但是如何做好数据分析是最重要的。然后也在慢慢学习这方面的知识。

从我爬取美团数据来看,我觉得主要是:

1、查看网页的内容,确定你所需要的东西。

2、再去看response中的内容,找到你需要的东西的位置

3、拿到该链接的请求头,模拟请求,特别是反爬做的比较好的网站

4、再就是写代码了,写你的xpath.

当然还有很多不对的地方,有什么错误,请指出

可以一起交流,本人也是初步学习

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180924G16ZQU00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券