00:00
说到自动化控制浏览器爬取数据的工具,大家肯定会想到playwright和sliium,但是这两款都需要写代码才能实现数据采集,并且遇到反扒措施强的网站还会出现无法访问的问题量数据。为了解决困扰大家的难题,推出了playwright MCP服务器,完全不需要写代码,只需要向智能体提供目标网站和需求,它将会为我们自动破解反扒措施并采集数据。点击免费试用,跟着博主一起来体验一番量数据playwright MCP服务器支持所有主流的大模型和集成开发环境IDE。这里我们来到编辑器,博主已经提前创建好了playwright MCP, 这里有21款工具可以供我们使用。具体的说明在说明文档中可以查看,比如允许AI智能体像点击鼠标一样点击元素,允许启用拖拽交互,允许关闭浏览器实例。
01:04
让AI智能体在页面中执行JS代码,通过浏览器处理文件,上传在网页填写表单,将鼠标悬停在指定元素上,导航到任意URL,模拟按键输入,为智能体提供完整的按键输入能力。可以看到,完全就是把需要写代码的部分给封装为MCP服务,方便我们的使用。我们本次测试的网站是海外电商网站亚马逊,该网站具备很强的反扒措施,一般的爬虫程序都是无法访问的。我们将爬取苹果最孝布的IPHONE17商品数据playright MCP在大模型和人工智能代理的加持下,在搜索和爬取之间可以有效的解决网页限制,绕过多种反扒机制的能力。然后我们返回对话博主,这里已经准备好了如何提问,1、启动浏览器,打开目标网站,附上目标网站的地址。2、搜索关键词,我们搜索IPHONE17 3、获取商品信息,导出这层格式的数据。
02:17
我们来测试一下。这里他正在为我们进行调用工具。可以看到它的步骤。先判断有没有浏览器,然后导航到亚马逊,搜索获取商品数据,导出Json,这里为我们自动启动了浏览器并打开亚马逊。好,进行搜索输入,IPHONE17已经成功跳转到了商品页面。
03:10
接下来将获取数据。已经提取成功了。接下来他将数据保存在Jason。可以看到已经成功生成Jason文件,我们点击接受。然后有标题,价格UR等等。还有价格、评分、URL详情、地址编号等。可以看到,量数据的playright MCP成功解决了获取数据难的问题,非常适合于网页抓取、数据聚合、市场调研、AI训练等场景。
04:06
量数据的网页MCP基础每月提供5000次免费请求次数,足以满足日常采集数据的需求,大家可以自行注册量数据进行尝试。此外,量数据的CSDN账号。开源中国专区、github账号、知乎账号及微信公众号。会定期更新爬虫相关知识、粉丝福利与优惠活动,感兴趣的小伙伴可以自行搜索并关注。
我来说两句