前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >selenium爬取异步加载的网站

selenium爬取异步加载的网站

作者头像
forxtz
发布2022-09-07 14:19:22
1.3K0
发布2022-09-07 14:19:22
举报
文章被收录于专栏:源懒由码

为了便利化使用selenium驱动浏览器进行操作,遇到一个网页,大部分内容都是通过xhr请求后再通过前端js处理显示,

带来的一个问题就是,采用显示等待无法准确的定位到需要的节点。因此,需要考虑采用判断xhr请求是否完成后再进行定

位,或者直接获取xhr请求返回内容的做法。

    参考链接:

Selenium处理异步加载请求获取XHR消息体的2种方法

谷歌浏览器配置参数

selenium3.0不用代理的情况下,获取异步请求的数据

Selenium启动Chrome时配置选项详解

代码语言:javascript
复制
import json
from selenium import webdriver
from selenium.webdriver import DesiredCapabilities
import os,time

配置浏览器启动参数

代码语言:javascript
复制
def get_log_options():
    option = webdriver.ChromeOptions()
    option.add_argument('--no-sandbox')
    #option.add_argument('--headless')  # 设置无头浏览
    option.add_argument("--disable-extensions")
    option.add_argument('--disable-infobars') # 禁用浏览器正在被自动化程序控制的提示
    option.add_argument("--allow-running-insecure-content")
    option.add_argument("--ignore-certificate-errors")
    option.add_argument("--disable-single-click-autofill")
    option.add_argument("--disable-autofill-keyboard-accessory-view[8]")
    option.add_argument("--disable-full-form-autofill-ios")
    option.add_argument('user-agent=Mozilla/5.0 (Macintosh; Intel Mac OS X 10.14; rv:55.0) Gecko/20100101 Firefox/55.0')
    option.add_experimental_option('w3c', False)
    option.add_experimental_option('perfLoggingPrefs', {
        'enableNetwork': True,
        'enablePage': False,
    })
    option.add_experimental_option('prefs',{
        #不弹出去请求
        'profile.default_content_settings.popups':0,
        #设置默认下载文件目录
        'download.default_directory':save_folder,
        # 禁止提示
        'profile.default_content_setting_values':{
            'notifications': 2
        }
    })
    return option
 
    
def get_caps():
    caps = DesiredCapabilities.CHROME
    caps['loggingPrefs'] = {
        'browser': 'ALL',
        'performance': 'ALL',
    }
    caps['perfLoggingPrefs'] = {
        'enableNetwork': True,
        'enablePage': False,
        'enableTimeline': False
    }
    return caps
代码语言:javascript
复制
# 获取日志中的xhr结果
def get_xhr_logs(chrome):
    log_xhr_array = []
    for typelog in chrome.log_types:
        perfs = chrome.get_log(typelog)
        for row in perfs:
            log_data = row
            message_ = log_data['message']
            try:
                log_json = json.loads(message_)
                log = log_json['message']
                if log['method'] == 'Network.responseReceived':
                    # 去掉静态js、css等,仅保留xhr请求
                    type_ = log['params']['type']
                    if type_ == "XHR":
                        log_xhr_array.append(log)
            except:
                pass
    return log_xhr_array

# 根据id获取返回结果
def get_xhr_body(driver, requestId):
    response_body = driver.execute_cdp_cmd('Network.getResponseBody', {'requestId': requestId})
    return response_body

考虑部分xhr请求较慢,增加一个判断指定请求是否完成的函数来判断执行情况。

代码语言:javascript
复制
# 等待直到某个xhr出现,返回整个异步情况吧
def wait_until_xhr_do(url='',limit = 10):
    tick = 0
    while tick < limit:
        logs = get_xhr_logs(chrome)
        if url == '':
            if len(logs) > 0:
                return logs
        else:
            for log in logs:
                if url in logs['params']['response']['url']:
                    return logs
        tick = tick + 1
    return []

最终案例参考:

代码语言:javascript
复制
if __name__ == '__main__':
    # 使用工具类来获取options配置,而不是平时的webdriver.ChromeOptions()方法
    options = get_log_options()
    # 使用工具类来获取caps
    desired_capabilities = get_caps()
    # 这里也可以对options和caps加入其他的参数,比如代理参数等
    chrome = webdriver.Chrome(options=options, desired_capabilities=desired_capabilities)
    chrome.get("https://spa6.scrape.center/")  # "https://www.baidu.com/"
    chrome.maximize_window()
    
    # 点击下一页
    el= chrome.find_element_by_xpath('//button[@class="btn-next"]')
    el.click()
    # 执行等待
    logs = wait_until_xhr_do()
    # 输出结果
    if len(logs) > 0:
        print(logs[0]['params']['response']['url'])

        body = get_xhr_body(chrome, logs[0]['params']['requestId'])
        # 使用eval转换遇到null会有问题,改为使用Json转换
        response = json.loads((body['body']))
        print(response)
本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2022-07-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档