python中scrapy点击按钮

最初遇到的问题的是在用scrapy爬取微博时需要按照指定关键字来爬取特定微博,主要还是解决需要输入关键字然后点击搜索按钮的问题。于是:

首先

找了scrapy的官方文档,发现有FormRequest.from_request()函数,于是试着用了,官方文档说函数默认会找到第一个submit的按钮,试了下没有结果,然后把clickdata设成d字典{'name':'button_name'},button_name为按钮的名字,还是没有任何反应(不知道是不是我的问题)。

然后

因为之前有用过selenium写过简单的爬虫,但是爬取的数据到一定程度账号就会被禁止。于是转成scrapy准备用多账号来对付反爬虫。selenium是完全模拟浏览器的行为,click功能自然是与生俱来。所以萌生了,使用selenium来实现点击功能。

但是,这样也需要先登录然后才能实现搜索。怎么登录呢?cookies!于是想利用scrapy的cookies来登录selenium账号,经过了一段时间的探索,最终还是以失败告终。(“error message:cannot only add cookies in current domain”)

最后

在无奈之际,手动搜索了微博,然后点击到下一页。发现链接后缀page=2(当前为第二页),原来第一页后面的链接都是隐藏的,发现这个规律之后,就用规则的方法实现的微博的搜索和页面的跳转!

换个视角会发现世界很美好!

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏前端大白专栏

基于mpvue开发微信小程序(项目已开源)

花了两周时间,我的微信小程序终于开发完了(平时上班,基本上都是业余时间开发的). 下面来介绍一下项目的功能以及结构. 用到的技术栈 vue2+weui+es6;...

57990
来自专栏FreeBuf

微信也被监控:HackingTeam语音监控代码分析

在HackingTeam泄漏的文件,我们发现了有针对主流聊天软件中的语音进行监控的代码,其中包括国内常用的微信。下面就以微信为例,来分析一下HackingTea...

32980
来自专栏happyJared

用Python统计你的简书数据

  说来也巧,之前有一次无意间留意到简书好像没有做文章总阅读量的统计(准确的说法应该叫展示),刚好最近有时间,趁这个机会就用Python写了这么个功能,既是学习...

18710
来自专栏更流畅、简洁的软件开发方式

【自然框架】 页面里的父类—— (补充)

      没想到下午发的《【自然框架】 页面里的父类——把共用的东东都交给父类,让子类专注于其他。 》启发了热烈讨论,还以为又是一大堆的口水回复呢。看到大家的...

22950
来自专栏鸿的学习笔记

简单聊聊Python解释器(一)

Python的解释器,从运行过程上来说就是在模拟一个CPU的处理,只要理解了这一点,python中鼎鼎大名的全局解释锁和多进程也就能够理解了。(Ps:在远古时...

10330
来自专栏mukekeheart的iOS之旅

JSON与XML的区别比较

1.定义介绍 (1).XML定义 扩展标记语言 (Extensible Markup Language, XML) ,用于标记电子文件使其具有结构性的标记语言,...

76270
来自专栏Android 开发者

开发者也是用户 — 第一部分:构建更具可用性的 UI 与 API 的 5 个方针

20420
来自专栏玄魂工作室

Hacker基础之工具篇 APT2

所有模块结果都存储在本地主机上,并且是APT2知识库(Knowledge Base)的一部分

13330
来自专栏Ryan Miao

Dubbo学习1-Hello world

前言 互联网技术到今天已经非常成熟和稳定了,其中为了解决高并发、大规模的服务请求,出现了微服务、RPC这样的分布式架构。今天就从头开始学习RPC框架dubbo。...

52660
来自专栏大数据杂谈

Python 爬虫实战:股票数据定向爬虫

35540

扫码关注云+社区

领取腾讯云代金券