首页
学习
活动
专区
工具
TVP
发布

进击的Coder

专栏作者
552
文章
1257695
阅读量
199
订阅数
三行代码,轻松实现 Scrapy 对接新兴爬虫神器 Playwright!
前段时间发布了一篇文章介绍一个新兴的类似 Selenium、Pyppeteer 的自动化爬取工具,叫做 Playwright,文章见:强大易用!新一代爬虫利器 Playwright 的介绍
崔庆才
2022-01-05
2.3K0
还有 Selenium 抓不到的内容?
有一些同学在写爬虫的时候,过于依赖 Selenium,觉得只要使用模拟浏览器,在不被网站屏蔽的情况下,就可以爬到任何内容。
崔庆才
2021-05-17
1.7K0
爬虫如何正确从网页中提取伪元素?
可以看到,在源代码里面没有请抓取我!这段文字。难道这个网页是异步加载?我们现在来看一下网页的请求:
崔庆才
2020-12-15
2.7K0
教你轻松截获 Selenium 中的 Ajax 数据
之前我们介绍了 ajax-hook 来实现爬虫的过程中截获 Ajax 请求,在这里再另外介绍一个工具 BrowserMob Proxy,利用它我们同样可以实现 Selenium 爬虫过程中 Ajax 请求的获取。
崔庆才
2020-06-16
2.7K0
一篇文章带你学会两个场景下 Selenium 爬取动态网页小技巧
Selenium 是一个用于 Web 应用程序测试的工具。Selenium 测试直接运行在浏览器中,就像真正的用户在操作一样,是爬复杂动态网页的必备工具。支持的浏览器包括 IE,Mozilla Firefox,Safari,Google Chrome,Opera 等。
崔庆才
2020-03-18
5510
Scrapy框架的使用之Scrapy对接Splash
在上一节我们实现了Scrapy对接Selenium抓取淘宝商品的过程,这是一种抓取JavaScript动态渲染页面的方式。除了Selenium,Splash也可以实现同样的功能。本节我们来了解Scrapy对接Splash来进行页面抓取的方式。 一、准备工作 请确保Splash已经正确安装并正常运行,同时安装好Scrapy-Splash库。 二、新建项目 首先新建一个项目,名为scrapysplashtest,命令如下所示: scrapy startproject scrapysplashtest 新
崔庆才
2018-06-25
2.2K0
Scrapy框架的使用之Scrapy对接Selenium
Scrapy抓取页面的方式和requests库类似,都是直接模拟HTTP请求,而Scrapy也不能抓取JavaScript动态渲染的页面。在前文中抓取JavaScript渲染的页面有两种方式。一种是分析Ajax请求,找到其对应的接口抓取,Scrapy同样可以用此种方式抓取。另一种是直接用Selenium或Splash模拟浏览器进行抓取,我们不需要关心页面后台发生的请求,也不需要分析渲染过程,只需要关心页面最终结果即可,可见即可爬。那么,如果Scrapy可以对接Selenium,那Scrapy就可以处理任何
崔庆才
2018-06-25
2.3K0
滑动宫格验证码都给碰上了?没事儿,看完此文分分钟拿下!
本节我们将介绍新浪微博宫格验证码的识别。微博宫格验证码是一种新型交互式验证码,每个宫格之间会有一条指示连线,指示了应该的滑动轨迹。我们要按照滑动轨迹依次从起始宫格滑动到终止宫格,才可以完成验证,如下图
崔庆才
2018-06-25
7060
只会用Selenium爬网页?Appium爬App了解一下
Appium是一个跨平台移动端自动化测试工具,可以非常便捷地为iOS和Android平台创建自动化测试用例。它可以模拟App内部的各种操作,如点击、滑动、文本输入等,只要我们手工操作的动作Appium都可以完成。在前面我们了解过Selenium,它是一个网页端的自动化测试工具。Appium实际上继承了Selenium,Appium也是利用WebDriver来实现App的自动化测试。对iOS设备来说,Appium使用UIAutomation来实现驱动。对于Android来说,它使用UiAutomator和S
崔庆才
2018-06-25
9.1K1
使用Selenium爬取淘宝商品
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取。比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可能会包含加密密钥等,所以如果想自己构造Ajax参数,还是比较困难的。对于这种页面,最方便快捷的抓取方法就是通过Selenium。本节中,我们就用Selenium来模拟浏览器操作,抓取淘宝的商品信息,并将结果保存到MongoDB。 1. 本节目标 本节中,我们要利用Selenium抓取淘宝商品并用pyquer
崔庆才
2018-06-25
3.6K0
Selenium的使用方法简介
Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。本节中,就让我们来感受一下它的强大之处吧。 1. 准备工作 本节以Chrome为例来讲解Selenium的用法。在开始之前,请确保已经正确安装好了Chrome浏览器并配置好了ChromeDriver。另外,还需要正确安装好Python的Selenium库,详细的安装和配置过程可以参考第
崔庆才
2018-04-02
4.8K0
腾讯云上Selenium用法示例
崔庆才
2017-04-06
3.6K0
腾讯云Ubuntu搭建Selenium+PhantomJS环境过程
本文介绍了如何搭建使用Selenium爬取JS渲染页面的环境,并分享了PhantomJS、Selenium和Python的下载和安装方法。通过使用PhantomJS和Selenium,可以自动化地爬取JS渲染的页面,并提取出所需的信息。
崔庆才
2017-03-09
2.8K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档