首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

如何利用 Playwright 对已打开的浏览器进行爬虫!

大家好,我是安果!

之前写过一篇关于如何利用 Selenium 操作已经打开的浏览器进行爬虫的文章

如何利用 Selenium 对已打开的浏览器进行爬虫!

最近发现很多人都开始摒弃 Selenium,全面拥抱 Playwright 了,那如何利用 Playwright 进行爬虫,以应对一些反爬严格的网站呢?

对 Playwright 不了解的小伙伴,可以看很早之前写过的一篇文章

微软最强 Python 自动化工具开源了!不用写一行代码!

具体操作步骤如下:

PS:这里以 Chrome 为例,其他浏览器类似

1-1  查看本地 Chrome 浏览器的的安装地址

比如:C:\Program Files\Google\Chrome\Application\chrome.exe

1-2  命令行启动浏览器

打开 CMD 终端,输入下面命令行打开 Chrome 浏览器

其中

--remote-debugging-port 端口号

指定浏览器调试端口号

PS:这里可以随机指定一个端口号,不要指定为已经被占用的端口号

--user-data-dir 用户数据保存目录

指定浏览器的用户数据保存目录

注意:需要设置到一个全新的目录,不要影响 Chrome 浏览器系统用户的数据

--incognito 用户数据保存目录

无痕模式打开,默认非无痕模式

--start-maximized

窗口最大化显示

--new-window  目标地址

直接打开目标网站

1-3 编写代码操作浏览器

使用命令行打开 Chrome 浏览器后,就可以使用 Playwright 编写代码,继续对浏览器进行操作

注意:必须保证上面的操作只打开一个浏览器窗口,方便我们进行操作

2  实战一下

目标:使用 Playwright 操作上面命令行打开的浏览器页面,根据关键字进行搜索,获取商品标题及地址

需要注意的是,通过 connect_over_cdp 指定的端口号要和浏览器调试端口号保持一致

推荐阅读

如何利用 Selenium 对已打开的浏览器进行爬虫!

微软最强 Python 自动化工具开源了!不用写一行代码!

最全总结 | 聊聊 Selenium 隐藏浏览器指纹特征的几种方式!

END

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230507A02B4Y00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券