前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >八爪鱼采集器︱加载更多、再显示20条图文教程(Xpatth、Ajax)

八爪鱼采集器︱加载更多、再显示20条图文教程(Xpatth、Ajax)

作者头像
悟乙己
发布2019-05-28 08:17:23
1.6K0
发布2019-05-28 08:17:23
举报
文章被收录于专栏:素质云笔记

由于代码布置采集器比较麻烦,又很早知道八爪鱼采集器的强大,所以把一些常规的采集内容贴成图文教程,供以后使用。

八爪鱼采集器官方视频教程见:http://www.bazhuayu.com/tutorial/zxs.aspx?t=0

采集流程:

1、打开网页

2、寻找“加载更多”、“在显示20条”的Xpath的路径

3、设置循环、Ajax

4、循环-提取内容

5、内容正则化

6、布置采集

注意是:先循环完列表,然后再提取数据。

——————————————————————————————

1、打开网页

打开网页部分,就是你自己想要的网页。

——————————————————————————————

2、寻找“加载更多”、“在显示20条”的Xpath的路径

官方认为火狐浏览器,加载一些插件就可以了。

在附加组件里面。需要加载两个插件:firebug、firePath。自己搜索一下,就能下载得到。

右键:“使用Firebug查看元素”,

点击“FirePath”

点击原页面的“加载页面”,Xpath就会显示出来了。

——————————————————————————————

3、设置循环、Ajax

然后填写在“单个元素“里面,如果上面出现字样——”加载更多“,那么就代表这个步骤设置成功。

同时,拖拽一个点击元素在里面,并在”高级选项“设置两个步骤:

勾选“使用循环”;

勾选Ajax加载,设置2s。

——————————————————————————————

4、循环-提取内容

这个步骤,跟常规的设置一样。

直接点击元素——创建一个元素列表以处理一组元素——添加列表——继续编辑列表——再点击——添加到列表——创建列表完成——循环

同时注意的是:如果是加载更多、再显示的问题,不能放在上述的循环之上,要放在之下。

5、提取数据——正则化

提取数据的时候,会出现需要只选择一部分,需要选择:

格式化数据-添加步骤,然后进行步骤的选择。

——————————————————————————————

最终的流程表:

———————————————————————————

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2016年10月19日,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1、打开网页
  • 2、寻找“加载更多”、“在显示20条”的Xpath的路径
  • 3、设置循环、Ajax
  • 4、循环-提取内容
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档