首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

大数据采集软件,火车采集器的一些注意事项

大数据观察

了解大数据,关注大数据观察吧!

每个想了解最新大数据资讯的人,都关注了我

文 / 数据君

火车头采集器功能还是很强大的,不过如果涉及到采集数据导入自己数据库的话,可能自己写采集的导入更有效率点(不过要有点实力了)。介绍下火车头采集的一点点知识点:

1:采集的开始,就是新建任务(可以先建立分组,在组下建立任务)。

2:之后呢 ,就是建立规则了,分四步:

1):采集网址规则

2):采集内容规则

如果采集的结果含有参数1,参数2等的,那么应该是之前的设置采集规则没有删除组合结果的原因。

火车采集器里支持两种正则,一个纯正则,一个参数正则。

关于纯正则:

在标签中用正则表达式采内容的格式是这样:

开始代码(?正则表达式)结束代码

其中在开始代码和结束代码中如有需要转义的字符就要用\转义。

比如这个:

(?[\s\S]*?)

,这里我们需要的是

标签里面的内容,所以可以这样写。

其他的延伸点:

(?[\s\S]*?)

也是采集div标签里面的内容,

(?[\s\S]*?)

采集a标签的内容。

关于参数正则:

这个不算是正则,可以对采到的内容进行组合。输入框两边都不得为空,后边的组合结果参数是按正则匹配内容的顺序来写的。

比如:

正则匹配内容:,组合结果里面,[参数1] 就是href对于的内容,[参数2]就是title对应的内容。

一般来说,如果页面有多个重复的标签div,想采集这个div标签里面里面里面的标签内容,那么最好从最外层这个重复的标签div开始,然后采用内容过滤的方法来采集到里面里面里面的标签内容。

3):发布内容设置

免费版,一般选择方式三,导入到自定义数据库access中。

4):文件保存及高级设置

这个一般不操作

如果报错:该任务您没有选择采网址,采内容的任何步骤,请检查任务====》任务首页,勾选任务右边三个复选框。

主题 |火车采集器

插图 | 网络来源

作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删

我想给你一个理由 继续面对这操蛋的生活

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180815B1CP3200?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券