00:00
哈喽,亲爱的粉丝朋友们,大家好,我是CSD博主,圆满欢迎大家来到这一期视频。当下AI技术飞速发展,很多公司都投身于AI模型的训练。然而,相对于模型的获取,高质量的数据往往更加难以采集。各大网站普遍设有反扒机制,如IP封锁、验证码校验、数据加密等,来阻止自动化程序抓取数据。博主最近发现,量数据平台的自动抓取工具可以非常便捷的帮我们采集数据,提高抓取的效率和质量。那么这一期视频的主要内容,就是给大家介绍如何利用量数据平台来采集我们需要的数据。这里我们来到了量数据的官网,然后点击产品选择网页抓取API,然后网页抓取API I支持120个热门的网站,然后可以获取阶层格式的数据和CSV格式的数据,并且支持批量处理请求,也支持无限迸发进行抓取任务。然后没有注册的小伙伴可以点击免费试用,就可以直接注册。然后,博主这里注册好了,直接来到控制台。然后,控制台我们选择第二个,然后选择外部爬虫库,可以看到这里所支持的类别。
01:16
比如电子商务,然后最热门的就是亚马逊啊谷歌,然后房地产也有金融领域,旅游行业的网站,社交媒体。它就是都Facebook都有,然后市场管理的新闻类的网站,谷歌新闻用于AI的数据给他也可以直接爬取,然后我们这里直接测试亚马逊吧。然后,这里亚马逊支持的接口类型,我们看不懂的可以直接网页翻译一下。然后URL获取,然后通通过类别搜索,然后通过畅销书网站地址,然后通过关键词搜索,我们这里选择关键词搜索发现。
02:06
然后,这个爬取API I可以支持API I自己。我们自己请求API I也可以直接用无代码抓取器,直接在这个要数据的官网直接采集数据。我们这里直接测试无代码抓取器,然后点击下一个。来到这里,这里就是我们要搜索的关键词,嗯,我们直接出一个吧,出一个搜索苹果。好了以后点击start。它就启动了,启动以后我们可以来到这边查看,它正在正在运行中,去一会儿它就好。这里我们等了几分钟,可以看到已经爬取成功了,然后我们点击查看。可以看到,可以返回返回阶层格式和CSV格式的数据。然后有很多字段,字段有在下面有标题、品牌描述等等,然后往下翻,还有更多字段。如果没有自己想要的字段怎么办呢?我们直接点击。
03:12
添加自己想要的字段,然后返回的格式丢失截图一起发送,它就能帮我们自动获取我们想要的字段。然后这里我们直接点击日志查看我们已经获取到的数据,点击下载,然后可以下载节省格式和CSV格式,还有一些格式,我们这里直接查看CSV格式。然后点击下载,下载完成后我们直接打开。可以看到有一些我们获取的数据、标题、价格等等,并且字段非常丰富。嗯,到这里我们整个演示过程就结束了,我们使用量数据的网页抓取API I, 非常简单的就抓取到了数据。
04:02
量数据的网页拉起的API I适用于大中小企业进行商用,可以有效简单的解决采集数据难、采集数据慢的问题。并且权限有拥有75折,有效期6个月。所有新老客户都可以注册使用。注册链接我已经放到视频的下方了,有兴趣的小伙伴可以自行注册使用。
我来说两句