专栏首页软件测试testclassSelenium获取网页源码

Selenium获取网页源码

写在前面

Python+Selenium可以做网络爬虫。所以,我们可以从网页源码中爬出想要的信息。

Selenium的page_source方法可以获取到页面源码。获取到源码以后可以再查找自己想要的信息。

源码保存

为了方便查看网页源码,我们可以借用python提供的方法,将获取到的网页源码写入到html文件中。

#get_source.py
#www.testclass.cn
#Altumn
from selenium import webdriver
driver = webdriver.Chrome()
driver.get("https://www.testclass.cn/")
driver.maximize_window()
driver.implicitly_wait(10)
page = driver.page_source

#打印源码,防止乱码加上编码格式;
print(page.encode("utf8"))

#保存网页源码名称为:testclass_cn.html,存储路径为工程根目录;
f=open('./testclass_cn.html',mode="w",encoding="utf-8")
f.write(page)

存储的网页效果(局部截图):

源码操作

成功获取源码以后,我们可以在源码中继续查找想要的信息。

例如,我想要获取该页面上所有关于‘.html’链接的信息。或者我们把抓取的URL集保存到本地文档中。

#get_source.py
#www.testclass.cn
#Altumn
from selenium import webdriver
import re
driver = webdriver.Chrome()
driver.get("https://www.testclass.cn/")
driver.maximize_window()
driver.implicitly_wait(10)
page = driver.page_source

#用正则表达式匹配URL集;
url_list = re.findall('href=\"(.*?)\"', page, re.S)
#打印出含有".html"的URL集
for url in url_list:    
    if ".html" in url: 
        print(url)
#存储获取到的URL到data.txt;
with open('data.txt','w') as f:    
    for url in url_list:
        f.write(url + '\n')

上面主要介绍了Selenium获取网页源码的基本操作方法,如果想要精通爬虫,需要掌握一门语言如python,然后熟悉使用正则表达式,了解网页html结构等一大箩筐技能。

本文分享自微信公众号 - 软件测试testclass(testclass_cn),作者:Altumn

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • Selenium必须掌握的元素定位方法

    Web端的UI自动化测试,目前使用比较多的就是Python+Selenium。当前一些UI自动化测试工具也是基于Selenium做开发的。 最近经常有童鞋后台询...

    Altumn
  • Selenium处理JavaScript对话框

    在日常的UI自动化测试中,经常会遇到网页弹出警告框,WebDriver可以轻松处理JavaScript对话框。 JavaScript弹出的对话框常见的有三种:a...

    Altumn
  • Selenium文件上传

    日常的UI自动化测试过程中,经常会遇到文件上传的业务操作。对于通过input标签实现的上传功能, 我们可以直接利用Selenium提供的方法send_keys(...

    Altumn
  • rest_framework之解析器、路由控制、分页

    人生不如戏
  • Selenium2+python自动化37-爬页面源码(page_source)

    前言 有时候通过元素的属性的查找页面上的某个元素,可能不太好找,这时候可以从源码中爬出想要的信息。selenium的page_source方法可以获取到页面源码...

    上海-悠悠
  • python爬虫学习教程,批量抓取美女图片!

    python的抓取功能其实是非常强大的,当然不能浪费,呵呵。下面就与大家分享一个python写的美女图自动抓取程序吧!

    python学习教程
  • 性能超FPN!北大、阿里等提多层特征金字塔网络

    特征金字塔网络具有处理不同物体尺度变化的能力,因此被广泛应用到one-stage目标检测网络(如DSSD,RetinaNet,RefineDet)和two-st...

    AI科技大本营
  • 新浪长连接转为短连接的API与详解

    新浪提供了长链接转为短链接的API,可以把长链接转为 t.cn/xxx 这种格式的短链接。

    码农程序
  • 荐读 | 大数据告诉你别人家的中秋节都是这么过的

    先来看一组残酷的数据 工作后仅有34%的人每年能回家陪伴父母超过30天 20%的人陪伴时间不足30天 24%的人陪伴时间仅有7至9天 而22%的人陪伴父母的时...

    灯塔大数据
  • 围观 | 大数据告诉你别人家的中秋节都是这么过滴~

    数据观 ? 先来看一组残酷的数据 工作后 仅有34%的人每年能回家陪伴父母超过30天 20%的人陪伴时间不足30天 24%的人陪伴时间仅有7至9天 而22%的...

    钱塘数据

扫码关注云+社区

领取腾讯云代金券