首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

爬虫入门经典(十四) | 使用selenium尝试爬取豆瓣图书

这个时候有两种方式 a:找到加密解密接口,使用python模拟(相当复杂,必须有解析js能力) b:使用selenium+driver直接获取解析后页面数据内容(这种相对简单) ?...当然了,我们只是分析了接口这一部分,其实我们通过查看网页源码,使用xpath进行尝试解析,发现其实是可行,但是由于本篇博文使用是自动化工具selenium,所以就不过多解释xpath。...二、selenium+driver初步尝试控制浏览器 ?...通过查找,我们发现在我们要爬取部分是没有iframe存在,因此我们可以直接使用xpath进行解析。 ? 先查看网页源码,然后尝试解析 1. 解析整体部分 ? 2....而我想要成为全场最靓仔,就必须坚持通过学习来获取更多知识,用知识改变命运,用博客见证成长,用行动证明努力。

63120

24行代码,轻松赚取400元,运用Selenium爬取39万条数据

可以看到,数据有19733页,每页20条,一共39万多条信息 通过初步尝试分析,网站具有一定反爬机制,点击下一页后,网页并不会整体刷新,替换只是其中表格,查看网页源代码,表格部分来源也是加密...如果按照以往方法,就需要复杂解密,然后再找出页面之间规律,此时,就凸显出Selenium优势了。 1.2 Selenium作用及环境配置 作用:它可以打开浏览器,然后像人一样去操作浏览器。...1.3 代码部分 1、首先是导入使用模块: import time #时间模块 from selenium.webdriver import Chrome #浏览器驱动模块 from selenium.webdriver.chrome.options...import Options #无头浏览器模块 import csv #csv读写模块 2、配置无头浏览器参数(代码基本固定,复制就可使用,配置后,代码运行中不会再弹出浏览,而是改为后台操作.../div/div/div[4]/div[1]/div/table/thead/tr' #运用开发者工具,获取目标信息xpath ex_header = web.find_element_by_xpath

98020
您找到你想要的搜索结果了吗?
是的
没有找到

Selenium自动化|爬取公众号全部文章,就是这么简单

大家好,今天我们来讲点Selenium自动化,你是否有特别喜欢公众号?你有思考过如何将一个公众号历史文章全部文章爬下来学习吗?现在我们以早起Python为例,使用Selenium来实现 ?...需求分析代码实现 需求很明确:获取早起Python公众号全部推文标题、日期、链接。如果要获取公众号相关信息,有一个很好途径是通过搜狗微信检索。...隐式等待是尝试发现某个元素时候,如果没能立刻发现,就等待固定长度时间driver.implicitly_wait(10),显示等待明确了等待条件,只有该条件触发,才执行后续代码,如这里用到代码...因此从这里开始,代码执行逻辑为: 先遍历前10页100个文章公众号名字,如果不是“早起Python”则跳过,是则获取对应标题名字、发布日期链接 第10页遍历完成后自动点击登录,此时人为扫码确定登录...如果对本次selenium自动化感兴趣化可以在后台回复:selenium获取源码,只需修改对应公众号名称就可以使用啦,拜拜~ 注1:Selenium浏览器自动化需要依赖ChromeDriver,详细配置请自行查询

2.3K20

利用selenium尝试爬取豆瓣图书

这个时候有两种方式 a:找到加密解密接口,使用python模拟(相当复杂,必须有解析js能力) b:使用selenium+driver直接获取解析后页面数据内容(这种相对简单) 当然了,我们只是分析了接口这一部分...,其实我们通过查看网页源码,使用xpath进行尝试解析,发现其实是可行,但是由于本文使用是自动化工具selenium,所以就不过多解释xpath。...在这里,我们使用selenium+driver能模拟浏览器找到elements里内容,这样再提取就没问题了。 接下来我们需要了解一些概念 1.什么是selenium?...二、selenium+driver初步尝试控制浏览器 说到模拟,那我们就先来模拟如何打开豆瓣图书并打开Python相关图书 from selenium import webdriver import...,在此我们以《Python编程 : 从入门到实践》为切入点 这个时候,我们首先要查看这个页面内是否存在有iframe 通过查找,我们发现在我们要爬取部分是没有iframe存在,因此我们可以直接使用

1.3K30

selenium学习笔记

什么是selenium 比较官方解释 Selenium是一个自动化测试工具,用于Web应用程序中模拟用户操作。...Selenium支持多种编程语言,包括Java、C#、Python、Ruby、JavaScript等,并可以多个浏览器操作系统上运行测试。...个人简单理解 浏览器驱动可以操作浏览器,不用selenium也能实现代码控制浏览器效果,就是需要自己查询浏览器启动提供功能, selenium可以看成是浏览器驱动工具类,项目中引入seleniu...getLocation():获取该元素页面中位置。以Point对象表示,包含xy坐标。 getSize():获取该元素大小,以Dimension对象表示,包含widthheight。...等待机制 显式等待 使用 WebDriverWait ExpectedConditions 来等待特定条件(如元素可点击、元素存在等)。

13110

Python爬虫:如何自动化下载王祖贤海报?

最后一步“保存数据”中,我们可以使用 Pandas 保存数据,最后导出CSV文件。 下面来分别介绍下这些工具使用。...,Python中有JSON库,可以让我们将Python对象JSON对象进行转换。...如何使用JSON数据自动下载王祖贤海报 在上面讲了Python爬虫基本原理实现工具,下面我们来实战一下。...你可以Query中进行XPath表达式缩减,尝试去掉XPath表达式中一些内容,Results中会自动出现匹配结果。...这节课,想让你掌握是: Python爬虫流程; 了解XPath定位,JSON对象解析; 如何使用lxml库,进行XPath提取; 如何在Python使用Selenium库来帮助你模拟浏览器

2.1K30

Python爬虫系列讲解」十、基于数据库存储 Selenium 博客爬虫

1 博客网站 博客(Blogger),为Web Log混成词。它正式名称为网络日记;是使用特定软件,在网络上出版、发表张贴个人文章的人,或者是一种通常由个人管理、不定期张贴新文章网站。...结交博友:通过博客及博客文章可以结交到很多志同道合博友。 提高个人影响力:博客是一个很好地自我展示互动交流平台,通过这个平台可以博友之间提高自己影响力。...然后使用正则表达式获取该字符串第二个数字,用以获取博主页码总数。...2.3 DOM 树节点分析及网页爬取 浏览器选中某篇博客信息,查看其对应 URL 源码发现,每篇文章都是由 组成。 ?...4 本文小结 网络爬虫是使用技术手段批量获取网站信息一种方法,而网络反爬虫是使用一定技术手段阻止爬虫批量获取网站信息方法。

78410

Python模拟登陆万能法-微博|知乎

尝试用requests来抓取网页。 req.get('待测试链接') 以上就是python模拟登陆万能方法,你无需分析传递给网站Cookies。...只需要告诉python什么地方填写用户名与密码就可以。十分便利。...推荐使用谷歌浏览器来查找每个元素Xpath,参看这个:从Chrome获取XPATH路径。 2. 选择click函数还是submit函数。推荐每个都试一下,总会有一个成功。...因为验证码输入框只有点击了一次登陆后才会弹出来!根据每个网站不同而灵活应用selenium是十分重要!但这个分析那些Cookies比起来简直是太小儿科了。...因此想到了一个终极方法,半手动登陆。仅用selenium打开一个浏览器,然后手动输入账号密码,有验证码就填验证码。等到成功登陆之后使用“get_cookies()”函数来调出它Cookies。

6.1K42

快速学Python,走个捷径~

说到 Python 大家反应可能就是 爬虫、自动化测试,比较少会说到用 python 来做 web 开发,相对来说,国内 web 开发使用比较多语言还是 java~ 但是并不是说 python 不适合用于做...二、爬虫测试 上面我们实现了如何使用 Selenium 来实现自动化测试,使用须合法~ 接下来我们来展示 python 另一个强大功能,那就是用于 爬虫 在学习爬虫之前,我们需要了解几个必要工具 1...,从而使使用进行网络请求时可以更加方便完成浏览器可有的所有操作~ scrapy request scrapy 区别可能就在于,scrapy 是一个比较重量级框架,它属于网站级爬虫,而 request...我们可以简单分为 4 个步骤: 根据给定 url 获取 html 数据 解析 html,获取目标数据 存储数据 当然这一切需要建立在你懂 python 简单语法 html 基本操作~ 我们接下来使用...咱们这篇以两个维度 自动化测试 爬虫 认识了 python使用,希望能够激发出你兴趣点~ 不要空谈,不要贪懒,小菜一起做个吹着牛X做架构程序猿吧~点个关注做个伴,让小菜不再孤单。

86240

Python改变生活 | 利用Selenium实现网站自动签到

作者:朱小五 来源:快学Python 大家好,是小五 今天是Python改变生活系列第二篇,也是真实问题案例。 ?...毕竟我们都会用python了,那就可以使用Selenium操作;浏览器实现自动签到啊! 现在开始上手工作? 准备工作 首先我们需要先安装Selenium,从而实现后续自动化操控浏览器。...执行代码时候会自行去寻找chromedriver.exe(python目录下寻找)。如果我们前面没有把它放在固定路径下,就需要在这里指定chromedriver.exe路径。...如上图所示,模拟浏览器已经打开了网站登录界面。这个时候我们需要定位到输入框、密码框以及登录按钮等。 这里不用担心,Selenium提供了很多种定位DOM元素方法,各有各特点优势。...地址:http://selenium-python.readthedocs.org/ 我们学习python时,可以尝试用来解决自己生活问题,这样学得也更扎实,学得也更有趣味!

1.5K20

《手把手教你》系列基础篇之3-python+ selenium自动化测试-驱动浏览器元素定位大法

窗口尺寸设置 测试过程中,我们可能会要求打开浏览器窗口处于最大化或者设置为某一特定尺寸大小,所以我们使用selenium驱动浏览器时设定窗口大小 # coding=utf-8 # 1.先设置编码...理解了上面这些特性是学习定位方法基础。我们以百度输入框百度搜索按钮为例来学习不同定位方法,两个元素代码如下。...5.4 tag 定位 tag 定位取是一个元素标签名,通过标签名去定位单个元素唯一性最底,因为一个页面中有太多元素标签为了,所以很难通过标签名去区分不同元素。...不过,需要强调Python 对于中文支持并不好,如查 Python 执行中文地方出现在乱码,可以中文件字符串前面加个小“u”可以有效避免乱码问题,加 u 作用是把中文字 符串转换中...小结  好了,今天python+ selenium-驱动浏览器元素定位大法就分享到这里。

96840

如何用Python抓取最便宜机票信息(上)

简单地说 这个项目的目标是为一个特定目的地建立一个web scraper,它将运行执行具有灵活日期航班价格搜索(您首先选择日期前后最多3天)。...在这里使用一些技术来自于我最近买一本很棒书,《Web Scraping with Python》它涵盖了与web抓取相关所有内容。书中有大量简单例子大量实际应用。...“你是人类吗”检查中,尝试了几次选择交通灯、人行横道自行车后,得出结论,Kayak是最好选择,只是当你短时间内加载了太多页面,它会发出安全检查。...使用randint使bot每次搜索之间睡眠时间是随机。这通常是任何bot都必须具备特性。如果运行前面的代码,应该会打开一个Chrome窗口,bot将在其中导航。...《用Python进行Web抓取》一书出色地解释了使用XPathCSS选择器导航基础知识。 ? 接下来,让我们使用Python选择最便宜结果。

3.7K20

🔥《手把手教你》系列基础篇之3-python+ selenium自动化测试-驱动浏览器元素定位大法(详细)

窗口尺寸设置 测试过程中,我们可能会要求打开浏览器窗口处于最大化或者设置为某一特定尺寸大小,所以我们使用selenium驱动浏览器时设定窗口大小 # coding=utf-8 # 1.先设置编码...理解了上面这些特性是学习定位方法基础。我们以百度输入框百度搜索按钮为例来学习不同定位方法,两个元素代码如下。...5.4 tag 定位 tag 定位取是一个元素标签名,通过标签名去定位单个元素唯一性最底,因为一个页面中有太多元素标签为了,所以很难通过标签名去区分不同元素。...不过,需要强调Python 对于中文支持并不好,如查 Python 执行中文地方出现在乱码,可以中文件字符串前面加个小“u”可以有效避免乱码问题,加 u 作用是把中文字 符串转换中...小结   好了,今天python+ selenium-驱动浏览器元素定位大法就分享到这里。

94040

(数据科学学习手札50)基于Python网络数据采集-selenium篇(上)

url地址来更改页面的方式失效,这一部分,(数据科学学习手札47)基于Python网络数据采集实战(2)中爬取马蜂窝景点页面下蜂蜂点评区域用户评论内容时候,也详细介绍过,但之前在所有爬虫相关文章中介绍内容...;在下载完毕后,将chromedriver.exe放到你Python根目录下,python.exe放在一起,譬如我就将其放在anaconda环境下对应位置:   3.测试一下~   完成上述操作之后...,即get()方法跳转到网页,这种情况我们就需要用到网页句柄来唯一标识每一个网页;   selenium中,关于获取网页句柄,有以下两个方法: browser.current_window_handle...,我们找到“下一页”按钮元素CSS结构中所在位置:   先把该元素完整xpath路径表达式写出来: //div/div/a[@class='ti next _j_pageitem'] 接着我们使用基于...,因为本文是介绍selenium上篇,下面只介绍两个常用动作,更复杂组合动作放在之后文章中介绍: 模拟网页下滑:   很多时候我们会遇到这样动态加载网页,如光点壁纸各个壁纸板块,这里以风景板块为例

1.8K50

九.网络爬虫之Selenium基础技术万字详解(定位元素、常用方法、鼠标操作)

/Python-zero2one ---- Selenium是一款用于测试Web应用程序经典工具,它直接运行在浏览器中,仿佛真正用户操作浏览器一样,主要用于网站自动化测试、网站模拟登陆、自动操作键盘鼠标...Selenium技术通过定位节点特定属性,如class、id、name等,可以确定当前节点位置,再获取相关网页信息。 下面代码是定位百度搜索框并进行自动搜索,它作为我们快速入门代码。...假设需要通过id属性定位页面中杜甫、李商隐、杜牧三个超链接,HTML核心代码如下: 如果需要获取div布局,则使用如下代码: test_div = driver.find_element_by_id...弹出对话框如下图所示,新版本尝试输入k键也能另存为网页。 ---- 六.导航控制 前一小节讲述了Python操作键盘鼠标,建议读者一定要自己去实现该部分代码,从而更好地应用到实际项目中去。...in driver.window_handles: driver.switch_to_window(handle) 帧与帧(Iframe)之间切换使用driver.switch_to_frame

4.5K10

爬虫进阶(二)

01|背景介绍: 学爬虫怎么能不买一本Python爬虫书来看呢,有人推荐说《用Python写网络爬虫》这本书不错,所以决定入手一本看看,但是淘宝上卖家比较多,该选哪家呢,想选肯定是质量又好(销量不错...除了修改参数,我们在上一篇推文中还用到另一种知识,基于AJAX请求网页,我们去看看淘宝页与页之间是否也是采用AJAX请求,如果是的话可以通过AJAX去或获取每一页url,然后去进行下一步。...02|selenium介绍: 1、selenium是什么 Selenium是一个用于Web应用程序测试工具。Selenium测试直接运行在浏览器中,就像真正用户操作一样。...更多信息移步官网:http://www.seleniumhq.org/ 2、用selenium能做什么 Selenium Python绑定提供了使用Selenium WebDriver编写功能/验收测试简单...这里所有的过程我们都使用selenium来完成,而不是人为去点击。

1.3K80

爬虫篇 | 学习Selenium使用Selenium模拟登录知乎

爬虫篇 | Python使用正则来爬取豆瓣图书数据 爬虫篇 | 不会这几个库,都不敢说我会Python爬虫 爬虫篇 | Python现学现用xpath爬取豆瓣音乐 爬虫篇 | Python最重要与重用库...Request 爬虫篇 | Python爬虫学前普及 基础篇 | Python基础部分 现在开始要学习使用Python进行动态爬虫了,而Selenium是来进行动态爬虫一种工具 介绍Selenium...众所周知很多网站内容需要登录后能去获取他们内容,这个时候我们就需要先登录进去,所以就有了这篇模拟登录文章 模拟登录我们要使用selenium 自动化测试工具,这个工具需要另行安装,如果你是使用...pycharm,你可以直接去setting中点击一键安装selenium, 然后还要去下载浏览器驱动,这里推荐使用Firefox,因为相对Chrome来说,它是没有版本限制,不容易出错....# coding=utf-8 import os from selenium import webdriver #知乎用户名密码 username = "XXXXXXX" password =

1.5K51

Selenium自动登录淘宝,无意间发现了登录漏洞!

起初互联网上找一些资源项目,直接拿来分析,但随着淘宝反爬机制增强,他们这些方法都行不通了。于是决定,自己动手!...利用浏览器定位的话,会定位到 span这个结点,但经过模仿单击按住,拖拽后滑块一动不动,参数也没有任何改变。于是尝试了一下它父节点div还是按住后拖拽,这次成功了。...这个按钮链接是javascript:void(0),假链接!!! 由于我前端基础不好,不知道这啥意思。疯狂互联网上查找如何使用selenium点击这种链接,可依旧没找到解决办法。...所以淘宝还是保存了账号信息,只要下次自动登录勾打上(默认打勾),它就会保存账号信息。 这就是为什么上面的代码,输入好信息并回车登录后,要等待5秒,就是让它保存账号信息。...Miniconda之间区别 【进阶篇】Python+Go——带大家一起另寻途径提高计算性能 ?

2K10

Python爬虫系列讲解」八、Selenium 技术

Python 语言提供了 Selenium 扩展库,它是使用 Selenium WebDriver(网页驱动)来编写功能、验证测试一个 API 接口。...类似于前几期文章讲到 BeautifulSoup 技术,Selenium 制作爬虫也是先分析网页 HTML 源码 DOM 树结构,通过其所提供方法定位到所需信息节点位置,并获取其文本内容。...Selenium 技术通过定位节点特定属性,如 class、id、name 等,可以确定当前节点位置,然后再获取相关网页信息。... 如果需要获取 div 布局,则使用如下代码: import os from selenium import webdriver # 浏览驱动器路径 chromedriver...(handle) 帧与帧(Iframe)之间切换使用 “ driver.switch_to_frame("frameName") ” 函数。

7K20
领券