需求背景
在很多时候, 写爬虫的过程中, 不得不使用一些自动化工具来完成抓取, pyppeteer就是一个很好的选择, 一般情况下, 会选择页面加载完成后, 点击按钮等等, 但是有时候..., 我们只需要其中的一些数据, 比如a标签的href, 其它的都不重要, 等待其它文件加载, 反而会影响爬虫的效率, 这时候, 就可以选择过滤一些无用文件的加载, 在缩短页面加载时间
代码
# -*-...asyncio.get_event_loop()
io_loop.run_until_complete(main())
这样就可以实现过滤不需要的请求, 和处理响应内容
其它问题及解决
1
设置浏览器最大化...'],
# 窗口在浏览器中最大化(mac测试无效)
# args=['--start-maximized']
)
page = await browser.newPage...解决
pip3 install websockets==6.0 --force-reinstall
3
移除自动化提示框
移除 Chrom正受到自动测试软件的控制提示
from pyppeteer