用火车头采集指定特征的网址、图片 src

大数据观察

了解大数据,关注大数据观察吧!

每个人都对这世界存有恶意,而我深爱你

文 / 数据君

前些天数据君用火车头从一个列表页采集一些网址,源码简化如下:

[xhtml]view plaincopy

111

222

333

我要采集到第二个链接,就是链接后指定有个IMG的,这个常用来采集热门帖子等,当时写的网址采集规则:

[xhtml]view plaincopy

(*)

却发现怎么都采集不对,最后想到原因:火车头从源码的前面开始匹配,每个链接都有这个特征,所以就匹配到了第一个链接上面,怎么解决呢?花了10块钱,一个兄弟帮我写了个规则:

[xhtml]view plaincopy

[参数]

就是把模糊匹配(*)给换成了[参数],就这样简单,现在数据君就把这答案分享给大家。

主题 |火车采集器

插图 | 网络来源

作 者 介 绍

数据君:)

了解大数据,关注大数据观察

部分图文来自网络,侵权则删

我想给你一个理由 继续面对这操蛋的生活

这里收集了那些不太愿意沉沦的梦

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180806B17C1S00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券