这绝对是一篇正经的文章 ?
之前就看到了狂放小朋友的PHP版本的污言爬虫,然后我就征求了一下小朋友的意见,就改成了Python版本的爬虫,也算是当做练手了
许多博客网站都在用一言这个API,这个污言是什么呢?
你好污啊是Roogle搞的一个网站,污言就是爬取这个网站所得
用Python爬这个简直是简单的不要不要的,用requests去发起请求,xpath和lxml库去处理数据
import requests
from lxml import etree
res = requests.get('https://www.nihaowua.com/')
res.encoding = 'utf-8'
selector = etree.HTML(res.text)
xpath_reg = "//p/text()"
results = selector.xpath(xpath_reg)
content = results[0]
print(content)
就这几行代码,我们就能拿到数据了,但是这样并不是我们所要的,一次做到位,将这些污言保存下来,然后为了防止反扒,加上随机代理和随机UA等功能 ? 手动滑稽
使用前请确定你有没有以下的模块,如果没有的话使用pip安装一下:
requests
random
lxml
bs4
fake-useragent
安装成功以后,直接在代码目录执行python spider.py
就行了
我将代码放在了Github上,可以进行下载