概要:之前写了scrapy的基础,准备尝试模拟知乎登录,并爬取问答。 但是发现知乎已经做了更新,对参数做了加密处理,身为小白的我只好试试selenium,本篇文章我们来了解scrapy框架如何对接selenium。
1、新建项目
新建项目,以及基本的操作在上一篇文章应该都有了解,如果现在还不了解,
这里献上链接:爬虫框架Scrapy的安装与基本使用
2、模拟知乎登录
首先需要在seetings.py中将ROBOTSTXT_OBEY = True修改为ROBOTSTXT_OBEY = False,ROBOTSTXT_OBEY 可以说是君子协议吧,我们修改成False,否则不能爬取。
然后再spider写下如下代码:
对于selenium不了解的可以查看:selenium的使用(有点意思)
3、运行
这里教大家一个小技巧
我们在项目下创建一个main文件写下如下代码:
即可。
这样我们就不用每次在黑窗口下运行,很麻烦。
总结:
这次只是简单的写了下selenium在scrapy框架中运用,没有用到什么新知识。
希望不懂的可以看下基础。
完。