00:05
哈喽,大家好,今天给大家介绍一下新的爬虫实战案例,将paetter与breadator代理集成以及代理管理器和paet集成,轻松调用API就可以获取亚马逊电商平台的商品类目。这里呢给大家介绍一下paet,它提供了一个高级API来通过DV tools协议控制谷歌浏览器,浏览器中手动执行的绝大多数操作都可以使用PA来完成,给大家推荐了很多期的量数据,为什么它这么好用呢?这里给大家对比分析一下。这里我们可以看到braet,它具有数宅移动数据中心、isp网络类型,并且它具有超大值的规模以及企业级并发,并且它的价格还是非常优惠,注册就送两刀,它具有企业级大规模的采集,并且技术性非常强,它的工具链也非常丰富,然而我们可以对比一下其他的代理,其他的代理在网络类型、规模、并发和工具链并不具有很高的性价比。
01:05
接下来呢,我们来看一下如何通过API调用来爬取到亚马逊商品数据。在通道名点击create process.我们来创建住宅代理,然后选择住宅,点击继续。这里我们可以看到有名称,还有描述,然后点击创建代理,可以看到代理正在创建中。随后我们拿这个脚本来测试一下代码。我们执行这个脚本,可以看到脚本执行成功,所以说这个我们生成这个住宅代理是没有问题的。接下来我们看一下我们生成的这个代理。在概览中可以看到我们代理的主机名,还有端口号,还有用户名,这都是我们在爬虫过程中需要用到的数据。接下来我们看一下如何将puppet代理与bread进行集成,我们点击复制代码。
02:12
将代码复制到我们的开发工具中。首先,我们使用puppet创建一个谷歌浏览器实例,并配置代理服务器和安全设置。然后设置认证代理。这里我们测试多个网站。然后接下来我们来执行一下脚本。可以看到他成功访问,并且拿到了数据。接下来我们将代理管理工具与puppet进行集成,我们到guitar HUB看一下这个代码管理器。
03:01
在下面我们可以看到代理管理器的安装方式,我们点击复制。回到开发工具,我们使用NPM进行安装。安装之后我们查看一下代理管理器的版本号,可以看到我们已经安装成功,这里我启动一下这个代理管理器。可以看到代理管理器正在启动,所以我们通过这个IP来进行访问,可以看到这是我创建的代理端口爬取的数据的结果。当然我们可以先创建一个端口,我们点击右上角的按钮pot,然后点击ne。也可以看到,我们此时创建了一个24001的一个端口号。我们点击关闭。这里我们来看一下代码。首先我们需要修改本地代理管理器的一个端口号,上面我是生成了一个24000的一个端口号,然后模拟真实的浏览器,然后设置亚马逊的访问地址,接下来都是一些抓取数据的操作。
04:19
我们来执行一下脚本。可以看到浏览器已经启动。打开了亚马逊的网站,接下来就开始进行爬取数据了。爬取成功之后,然后会关闭浏览器。我们来看一下爬雪的过程。可以看到它爬取了顶部的导航,还有页面链接,还有礼物的内幕。
05:01
并且将爬取结果它放到一个Jason文件中,这里我们看一下Jason文件,可以看到爬取的数据还是非常多的,随后我们可以在代理管理器的页面看到我们爬取的每条数据的一个记录,非常直观,整个扒取过程也是非常高效。最后呢,大家可以关注量数据的CSDN官方账号以及微信公众号,查看更多详细内容。
我来说两句