前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >关于爬虫

关于爬虫

作者头像
andrew_a
发布2019-07-30 13:06:26
2640
发布2019-07-30 13:06:26
举报

我是今年实习的时候接触的Python,接触了具体的代码,以前只知道Python比较好玩,但是没用过。然后在公司以后项目用的是Python的Django框架,就一直学习Python,学习框架。现在在学习Python的爬虫框架scrapy,一直是挺喜欢爬虫的,因为基本可以爬到所有的公开数据,也挺好玩的,然后最开始是直接的基础的requests和urlib包,最后就决定试试一些比较大型的网站。

美团的是我爬虫爬取的第一个网站,也就是一边学习,一边写代码。从最基本的地区信息,一直爬到最详细的美食模块数据。中间也踩了很多坑,也学习了好多。最后是由于爬取详细的美食数据必须要有一个比较稳定的代理IP,最好是动态的,这样是最容易拿到所有的数据,这是需要花钱的,我就没在做了。但是具体的数据怎么拿到,怎么做,怎么保存,还是学到很多的。

下一步,我是想拿智联的数据,做一些数据分析。数据爬到其实挺容易的,但是如何做好数据分析是最重要的。然后也在慢慢学习这方面的知识。


从我爬取美团数据来看,我觉得主要是:

1、查看网页的内容,确定你所需要的东西。

2、再去看response中的内容,找到你需要的东西的位置

3、拿到该链接的请求头,模拟请求,特别是反爬做的比较好的网站

4、再就是写代码了,写你的xpath.


当然还有很多不对的地方,有什么错误,请指出

可以一起交流,本人也是初步学习

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-24,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python爬虫scrapy 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档