首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >USpider~一只超级污的司机蜘蛛

USpider~一只超级污的司机蜘蛛

作者头像
沈唁
发布2018-07-25 17:03:46
6670
发布2018-07-25 17:03:46
举报
文章被收录于专栏:沈唁志沈唁志

这绝对是一篇正经的文章 ? 

之前就看到了狂放小朋友的PHP版本的污言爬虫,然后我就征求了一下小朋友的意见,就改成了Python版本的爬虫,也算是当做练手了

污言

许多博客网站都在用一言这个API,这个污言是什么呢?

你好污啊是Roogle搞的一个网站,污言就是爬取这个网站所得

爬取方式

用Python爬这个简直是简单的不要不要的,用requests去发起请求,xpath和lxml库去处理数据

import requests
from lxml import etree

res = requests.get('https://www.nihaowua.com/')
res.encoding = 'utf-8'
selector = etree.HTML(res.text)
xpath_reg = "//p/text()"
results = selector.xpath(xpath_reg)
content = results[0]
print(content)

就这几行代码,我们就能拿到数据了,但是这样并不是我们所要的,一次做到位,将这些污言保存下来,然后为了防止反扒,加上随机代理和随机UA等功能 ? 手动滑稽

使用方法

使用前请确定你有没有以下的模块,如果没有的话使用pip安装一下:

requests
random
lxml
bs4
fake-useragent

安装成功以后,直接在代码目录执行python spider.py就行了

我将代码放在了Github上,可以进行下载

注意

  • 我的代码中使用了西刺的代理IP,请在使用前加上延时,或者使用自建IP池,否则短时间内多次请求西刺可能会block你的IP
  • 作者自己说他是一枚计算机门外汉,只是写来玩玩而已。而且服务器是小水管,我们还是少爬些吧,作者舍弃了Ajax,就是怕爬虫。所以我们爬的时候不要太猛,烧钱的…
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2018-06-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 污言
  • 爬取方式
  • 使用方法
  • 注意
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档