最近项目不忙,乘此机会重新学习了一下python爬虫, 引发了一些思考,以下几点:
学习python真的是从众现象一时热吗? 学了有什么用,能改变现状吗? 如果不学又当如何,干点什么事情好呢
学习python到了现在是个分水岭,几乎各方面的知识都有所涉及,到底是往哪个方向发展呢
√
数据爬虫 (网络请求,页面解析,设置headers,代理ip,cookies,处理异常,ajax&&JS等动态页面数据的获取,伪装浏览器的访问等… requests,BeautifulSoup,xpath,正则,selenium,phantomJS,scrapy)
√
数据分析可视化(pyecharts,Echarts,csv,json等)
√
web前端 (Django …)
√
后端 (数据库+服务器)
√
机器学习 (尚未涉及)
√
用来写工具/脚本 (用过别人写好的)
√
做游戏 (听说吃鸡就是python在做的)
√
…
此时此刻,真的有些迷茫 , 但是人总是想着改变,只能说目前没有别的想法 ,学到一个是一个吧 ,但愿能派上用场吧
爬虫技巧下载器,使用什么框架爬取 (必备)requests + BeautifulSoup (正则或者xpath也可)scrapy + BeautifulSoup (正则或者xpath也可)selenium + phantomJS + python3目标网站即URL (必须)代理ip(可选)使用cookies (可选)如何处理AJAX和JS渲染的内容?如何绕过反爬虫机制?爬虫技巧
"人生苦短,我用",也许是因为简单,也许是因为效率高… 这门语言已经风靡全球,有些学校已经列为必修课了。
下载器,使用什么框架爬取 (必备)
requests + BeautifulSoup (正则或者xpath也可)
用传统正则解析
用BeautifulSoup解析
scrapy + BeautifulSoup (正则或者xpath也可)
scrapy中文教程
BeautifulSoup
正则
xpath
selenium + phantomJS + python3
另外它也支持自己的解析语法:
参考博客
https://cuiqingcai.com/2577.html
https://zhuanlan.zhihu.com/p/29435831
https://cuiqingcai.com/2599.html
http://www.cnblogs.com/jinxiao-pu/p/6677782.html#_label0
目标网站即URL (必须)
爬什么,心里得有数吧!
代理ip(可选)
网上一搜免费的代理ip一大堆,但是都不是很稳定的,用于学习还是可以满足的,商用的话还是建议花钱买稳定的好
使用cookies (可选)
参考python学习笔记 有提到代理ip怎么设置 headers怎么设置 cookies的读写删除
使用selenium管理cookies
如何处理AJAX和JS渲染的内容?
ajax 无非就是表单提交网络请求, 只要找到对应的标签节点和js函数,使用selenium的JS行为操作一番,把结果获取到进行解析即可
JS同理
如何绕过反爬虫机制?
这里的反爬虫机制其实就是我们爬取数据的时候伪装成用户操作的行为一样就ok,频率和使用的硬件等信息要相似,验证码之类,或者弹窗之类的一般先模仿浏览器打开然后操作一步一步进行推进,最后到达想要的页面进行操作获取页面的数据
平时操练的代码已经托管在github上了
领取专属 10元无门槛券
私享最新 技术干货