之前的两篇我们讲解了Python内的urllib库的使用,不知道大家有没有在爬取一些动态网站的时候,发现自己用urllib爬取到的内容是不对的,无法抓取到自己想要的内容,比如淘宝的店铺宝贝等,它会用js动态的加载内容,此时selenium这个家伙就能派上用场了。
新建实例driver = webdriver.Chrome() 1.通过标签属性Id查找元素 方法:find_element_by_id(element_id) 实例:driver.find_element_by_id(“iptUsername”) 2.通过标签属性name查找元素 方法:find_element_by_name(element_name) 实例:driver.find_element_by_name(“inputPwname”) 3.通过标签Xpath路径查找元素 方法:find_element_by_xpath(xpath) 实例:driver.find_element_by_xpath(“//div[@id=’menuContainer’]/div/div/ul/li[4]/a”) 4.通过标签名tagname查找元素 方法:find_element_by_tag_name(tag_name) 实例:driver.find_element_by_tag_name(“input”) 注意:通过tag_name查找时使用find_element_by_tag_name查找到的是第一个标签的tag_name 5.通过标签中的元素文本链接查找元素 方法:find_element_by_link_text(link_text) 实例:driver.find_element_by_link_text(‘登 录’) 6.通过标签的class属性查找元素 方法:find_elements_by_class_name(class_name) 实例:driver.find_elements_by_class_name(“x-panel-body”) 7.通过css样式查找元素 方法:find_element_by_css_selector() 实例:driver.find_element_by_css_selector(“input.btn”) 温馨提示:find_elements_by_css_selector()查询到的是一个集合,如果id名字重复的时候可以采取find_elements_by_id(),其他的查询方式同理; 8.浏览器中加载url 方法:get(url) 实例:driver.get(“http//:www.baidu.com”) 9.向前 方法:forward() 实例:driver.forward() 10.返回当前会话中的cookies 方法:get_cookies() 实例:driver.get_cookies() 11.根据cookie name 查找 方法:driver.get_cookie(cookie_name) 实例:driver.get_cookie(“NET_SessionId”) 12.截取当前页面 方法:get_screenshot_as_file(filename) 实例:driver.get_screenshot_as_file(“D:\Program Files\Python27\NM.bmp”) 13.获取当前窗口的坐标 方法:get_window_position() 实例:driver.get_window_position() 14.获取当前窗口的长和宽 方法:get_window_size() 实例:driver.get_window_size()
selenium初探 selenium简介与安装 简介 selenium是一个网站的自动化测试库,但由于其具有大量的自动化库而且可以调用浏览器,常常被用于爬虫技术。也正是因为其是调用浏览器的,这几乎成了一个无解的爬虫。在神经网络领域需要大量的数据集,爬虫是一种快速获得数据的方法,这也正是我学习这个库的动机 安装 selenium安装 使用pip install -U selenium即可 Diver安装 selenium要调用各种浏览器需要对应的浏览器driver,我将使用chrome测试,测试成功后转为无
最近斗哥在朋友的影响下,接触了自动化测试工具中的一个项目:appium自动化测试脚本。
Selenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。
第一种:selenium导入浏览器驱动,用get方法打开浏览器,例如: import time from selenium import webdriver def mac(): driver = webdriver.Firefox() driver.implicitly_wait(5) driver.get("http://huazhu.gag.com/mis/main.do") 第二种:通过导入python的标准库webbrowser打开浏览器,例如: >>> import webbrowser >>> webbrowser.open("C:\\Program Files\\Internet Explorer\\iexplore.exe") True >>> webbrowser.open("C:\\Program Files\\Internet Explorer\\iexplore.exe") True 第三种:使用Splinter模块模块 一、Splinter的安装 Splinter的使用必修依靠Cython、lxml、selenium这三个软件。所以,安装前请提前安装 Cython、lxml、selenium。以下给出链接地址: 1)http://download.csdn.net/detail/feisan/4301293 2)http://code.google.com/p/pythonxy/wiki/AdditionalPlugins#Installation_no 3)http://pypi.python.org/pypi/selenium/2.25.0#downloads 4)http://splinter.cobrateam.info/ 二、Splinter的使用 这里,我给出自动登录126邮箱的案例。难点是要找到页面的账户、密码、登录的页面元素,这里需要查看126邮箱登录页面的源码,才能找到相关控件的id. 例如:输入密码,密码的文本控件id是pwdInput.可以使用browser.find_by_id()方法定位到密码的文本框, 接着使用fill()方法,填写密码。至于模拟点击按钮,也是要先找到按钮控件的id,然后使用click()方法。 #coding=utf-8 import time from splinter import Browser def splinter(url): browser = Browser() #login 126 email websize browser.visit(url) #wait web element loading time.sleep(5) #fill in account and password browser.find_by_id('idInput').fill('xxxxxx') browser.find_by_id('pwdInput').fill('xxxxx') #click the button of login browser.find_by_id('loginBtn').click() time.sleep(8) #close the window of brower browser.quit() if __name__ == '__main__': websize3 ='http://www.126.com' splinter(websize3) WebDriver简介 selenium从2.0开始集成了webdriver的API,提供了更简单,更简洁的编程接口。selenium webdriver的目标是提供一个设计良好的面向对象的API,提供了更好的支持进行web-app测试。从这篇博客开始,将学习使用如何使用python调用webdriver框架对浏览器进行一系列的操作 打开浏览器 在selenium+python自动化测试(一)–环境搭建中,运行了一个测试脚本,脚本内容如下: from selenium import webdriver import time driver = webdriver.Chrome() driver.get("http://www.baidu.com") print(driver.title) driver.find_element_by_id("kw").send_keys("s
文末也有关于如何定位一组元素的方法。不过有的小伙伴反映不方便查找,现把该部分内容单独列出。
find_element_by_id() find_element_by_name() find_element_by_class_name() find_element_by_tag_name() find_element_by_link_text() find_element_by_partial_link_text() find_element_by_xpath() find_element_by_css_selector() 在这里将对各种元素定位方式统一使用百度首页进行示例,详细操作步骤有以下内容: 1.打开浏览器,进入百度首页(www.baidu.com); 2.百度页面输入关键字 www.testclass.cn 进行搜索; 3.关闭浏览器; 首先,通过前端工具(火狐浏览器的Firebug)或者直接按F12进入开发者模式查看具体前端代码:
这里简单解释一下什么是Selenium,它其实是一个网站前端压力测试框架,更通俗的说,它能直接操作浏览器,试想一下,网页是在浏览器里面加载的,如果我们能用代码操控浏览器,那我们想要爬取什么数据不能通过浏览器获取?无所不爬!
selenium是一套web网站自动化测试工具,主要通过命令行的操作完成常规可视化界面下的用户各种操作行为,因为其简单易学成本低,并且执行测试效率较高而在web自动化测试方面比较突出,该库可以直接运行操作各种主流浏览器,辅助浏览器自动完成表单互动、鼠标点击、鼠标拖拽、窗口切换等等各种用户行为,是一套非常好用且强大的测试库,但是selenium没有内置的浏览器模块,不能独立运行,必须要和第三方浏览器配合使用才可以完成自动化测试操作。
将将要爬去的url放在一个队列中,这里使用标准库Queue。访问url后的结果保存在结果队列中
本文主要介绍selenium在爬虫脚本的实际应用。适合刚接触python,没使用过selenium的童鞋。(如果你是老司机路过的话,帮忙点个star吧)
环境: Python3.6.5 编译器: Sublime Text 3 联系方式: ke.zb@qq.com 第三方库: seleniu
本文通过分析网络爬虫技术的实现,探讨了如何从网络中爬取所需信息。通过使用Python的BeautifulSoup和Selenium库,可以爬取网站的内容。同时,文章还讨论了如何爬取动态加载的内容和网站,并分析了爬取效率的问题。最后,作者分享了自己在爬虫实践中的经验和教训,并指出了爬虫技术的优缺点。
爬虫(Spider),反爬虫(Anti-Spider),反反爬虫(Anti-Anti-Spider) 之间恢宏壮阔的斗争... 小莫想要某站上所有的电影,写了标准的爬虫(基于HttpClient库),不断地遍历某站的电影列表页面,根据 Html 分析电影名字存进自己的数据库。 这个站点的运维小黎发现某个时间段请求量陡增,分析日志发现都是 IP(xxx.xxx.xxx.xxx)这个用户,并且 user-agent 还是 Python-urllib/2.7 ,基于这两点判断非人类后直接在服务器上封杀。
在自动化的测试中,对象元素的定位和操作是自动化的核心部分,但是对象是定位是自动化的基础,在对象的基础上,才可以形成对对象的操作。
我们模拟登陆用的是selenium库,selenium是一个自动化测试工具,在爬虫中通常用来进行模拟登陆。
前言 江湖传言,武林中流传八种定位,其中xpath是宝刀屠龙,css是倚天剑。 除了这八种,其实还有十种定位方法,眼看就快失传了,今天小编让失传已久的定位方法重出江湖! 一、十八种定位方法 前八种是大家都熟悉的,经常会用到的 1.id定位:find_element_by_id(self, id_) 2.name定位:find_element_by_name(self, name) 3.class定位:find_element_by_class_name(self, name) 4.tag定位:find_el
领取专属 10元无门槛券
手把手带您无忧上云