playwright - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签playwright

#playwright

在用playwright采集网站数据时，频繁遇到验证码，是什么原因，怎么解决？

0回答

网站、验证码、playwright、数据采集、网络爬虫

请教下大家在做电商/社媒数据采集时，直接用requests或者playwright都遇到过哪些反爬机制？

2回答

电商、playwright、requests、数据采集、网页爬虫

是一条鲸鱼人生是旷野

我总结下来主要有以下几个：user agent识别、人机验证、cookies追踪、js动态加载、行为指纹识别、IP检测等。虽然requests和selenium采集电商、社交媒体数据确实好用，但处理反爬很麻烦，还需要设置来源头、ip代理池等等。我研究生做社媒关系分析课题时，需要采集大量社交媒体用户发帖评论数据，当时用的是第三方采集平台亮数据的网页抓取浏览器，它能模拟真实用户的浏览器，且直接内置了动态住宅ip代理池，不需要自己去布置，而且可以自动化解锁验证码、人机验证，相当于处理了90%的爬虫工作，你只需要写selenium代码去接接口，指挥浏览器采集数据即可，这帮了我大忙，当时只用了一两天的时间就把数据部分搞定了，还不错的。... 展开详请

赞0 收藏0 评论1

大家在做社媒数据采集时，用selenium和playwright怎么解决爬虫检测呀？

1回答

爬虫、selenium、playwright、python爬虫、数据采集

New Boy热爱技术，好好生活

selenium和playwright是同一类自动化工具，都是靠操作浏览器请求数据，但他们都没法自己去处理反爬检测，很容易被判定为人机，然后被封掉ip。怎么去解决呢？有两种方法，第一是自己去部署ip池，模仿人行为不定时切换，而且访问频率要控制。第二是直接用第三方的采集api，省去麻烦。我是喜欢直接用亮数据的数据抓取浏览器api，很适合去采集社媒、电商之类的复杂数据，亮数据提供的是远程浏览器，操作和普通浏览器一样，但是它内嵌了多种高级的应对反爬虫机制的技术，可以自动识别并解锁验证码，自动切换动态住宅ip池，直接解析动态网页为json数据，模拟真人行为指纹等，会让爬虫更加简单，很轻松的处理检测问题，可以试试，很适合爬虫新手。... 展开详请

赞0 收藏0 评论0

#playwright

在用playwright采集网站数据时，频繁遇到验证码，是什么原因，怎么解决？

请教下大家在做电商/社媒数据采集时，直接用requests或者playwright都遇到过哪些反爬机制？

大家在做社媒数据采集时，用selenium和playwright怎么解决爬虫检测呀？

Playwright+Python Web自动化测试：体系化学习路径？

playwright MCP自动化，打开浏览器，上传文件的按钮点击没有反应input file这种？

python+playwright，启动浏览器如何引入自定义浏览器option参数的设置？

热门专栏

JadePeng的技术博客

开源优测

从零开始学自动化测试

开源技术小栈

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐