python中scrapy点击按钮

最初遇到的问题的是在用scrapy爬取微博时需要按照指定关键字来爬取特定微博,主要还是解决需要输入关键字然后点击搜索按钮的问题。于是:

首先

找了scrapy的官方文档,发现有FormRequest.from_request()函数,于是试着用了,官方文档说函数默认会找到第一个submit的按钮,试了下没有结果,然后把clickdata设成d字典{'name':'button_name'},button_name为按钮的名字,还是没有任何反应(不知道是不是我的问题)。

然后

因为之前有用过selenium写过简单的爬虫,但是爬取的数据到一定程度账号就会被禁止。于是转成scrapy准备用多账号来对付反爬虫。selenium是完全模拟浏览器的行为,click功能自然是与生俱来。所以萌生了,使用selenium来实现点击功能。

但是,这样也需要先登录然后才能实现搜索。怎么登录呢?cookies!于是想利用scrapy的cookies来登录selenium账号,经过了一段时间的探索,最终还是以失败告终。(“error message:cannot only add cookies in current domain”)

最后

在无奈之际,手动搜索了微博,然后点击到下一页。发现链接后缀page=2(当前为第二页),原来第一页后面的链接都是隐藏的,发现这个规律之后,就用规则的方法实现的微博的搜索和页面的跳转!

换个视角会发现世界很美好!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据钻研

大福利!献给网页开发者的20款Firefox插件

毫无疑问,比起其他浏览器,谷歌浏览器虽有着明显的优势,但是它的劲敌火狐却是很多前端攻城师和研发人员的挚爱,为了尽可能地提高用户体验,火狐浏览器的社区在插件开发和...

41911
来自专栏FreeBuf

漏洞分析:WordPress图片插件Fancybox-For-WordPress漏洞导致批量挂马

Fancybox For WordPress是一款很棒的WordPress图片插件,它可以让你的WordPress图片弹出一个漂亮的浏览界面,展示丰富的弹出层效...

20110
来自专栏web前端教室

《vue+vant+node+mongoDB+koa2》电商项目实战连载(2)

https://youzan.github.io/vant/#/zh-CN/intro,

602
来自专栏企鹅号快讯

UI前端同学回来抢经验,react native开发实战五部曲的实战与锤炼,咬牙学完保证变大牛!

背景 现在很多移动项目全都专项纯rn开发,对于rn的应用趋势不言而喻,学习一些rn的语法并不是十分困难,但是如何在项目中灵活运用,增加实战项目经验,这还是比较困...

4356
来自专栏花叔的专栏

惊喜,热心网友为Nodes小程序写的超详细使用指南

曾斌是一个在校学生,也是一名Nodes的爱好者,他为Nodes撰写了非常详细的使用指南,并且也很用心的制作了演示视频,以下内容已得到曾斌同学的授权。 Node...

3616
来自专栏大前端开发

微信小程序之内嵌网页(webview)

微信小程序提供了新的开放能力!它终于开放了在小程序中内嵌HTML页面的功能!从微信小程序基础库1.6.4开始,我们就可以在小程序内放置一个<web-view>组...

1413
来自专栏ZKEASOFT

纸壳CMS 3.0升级.Net Core 2.1性能大提升

微软发布了.Net Core 2.1正式版,纸壳CMS也在第一时间做了升级,并做了一系列的优化和调整,性能大幅提升,并解决了一些历史遗留问题,添加了一些新功能。

2503
来自专栏微信小程序开发

小程序中布局突然乱掉了,到底是怎么个情况?

就在上周,突然很多用户反馈,都说小小签到布局乱掉了(线上有四款小程序都收到这样的反馈,这里我就不广告了),经过客服反复沟通,找到了布局乱掉的必现条件: 1、IO...

39216
来自专栏编程软文

如何制作公众号二维码

1435
来自专栏张戈的专栏

WordPress百度自动推送JS优化,规避错误、重复推送问题

导读:关注 SEO、关注收录的站长,应该都知道百度搜索提供了一段自动推送的 js 代码,可将任意网页推送到搜索引擎,加快收录。但是,这段代码并不是简单的增加到...

3507

扫码关注云+社区