ForeSpider教程连载之链接抽取

自从来到前嗅,小编从一个爬虫小白到现在能够熟练的采集各种网站各种数据真的是有很大的成长,当然,成长过程中肯定少不了踩坑(很多网站都有防爬措施),为了让各位用户能够更熟练的使用爬虫软件,小编决定定期在公众号写一些配置爬虫的经验和小技巧,以及遇到坑的时候的解决方法。

本次案例使用的是大众点评网,要抽取下面的翻页链接。

第一步先看每一页的链接地址有没有规律。

可以看到每一页的链接地址只有最后一个数字是不一样的,分别是对应的页码数,我们可以通过拼接的方式得到所有翻页的链接地址。下面写了拼接第二页链接地址的脚本:

图中的六行代码,是链接抽取中必不可少的部分,这简单的六行就是一个完整的链接抽取脚本。下面是每一行的解释:

第一行:定义一个url类的变量u

第二行:u.urlname是网页的链接地址,为其赋值。

第三行:u.tmplid是这个链接抽取所要关联的模板id,这里是翻页,所以关联自身模板。

第四行:这个链接抽取所对应的频道id。

第五行:u.title是链接标题,为其赋值。

第六行:将所拼接的链接添加到最后的结果中。

上面的代码取到的只是第二页的链接,下面给大家放完整的内容:

通过FindClass的方式,从源码中得到总页数,然后使用for循环拼接每一页的链接。一共才用了12行(其中还包含了两行注释)就得到了自己想要的链接。

前嗅大数据——深度大数据专家

本文来自企鹅号 - 前嗅大数据媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏码洞

全栈虚拟机GraalVM初体验

近日Oracle开源了一个实验性的产品GraalVM,官方称之为Universal GraalVM。它打通了不同语言之间的鸿沟,让我们可以进行混合式多语言编程。...

1522
来自专栏轮子工厂

如果你想学好Python,这几本书说不定可以帮助到你哦

712
来自专栏机器之心

资源 | 这是一份收藏量超过2万6的计算机科学学习笔记

项目地址:https://github.com/CyC2018/Interview-Notebook

1053
来自专栏liulun

Nim教程【一】

这应该是国内第一个关于Nim入门的系列教程 什么是Nim 我们先来引述网友 Luikore的一段话: Nim 不是函数式的, 但 ...

3579
来自专栏ytkah

如何调用finecms指定栏目的描述关键词

  有时我们在用finecms建站时需要调用指定栏目的描述和关键词,实现个性化需求,比如id为23的栏目很重要,要让它在首页展示出来,这时我们要如何调用呢?{d...

2705
来自专栏个人随笔

Java核心技术(Java白皮书)卷Ⅰ 第一章 Java程序设计概述

第1章 Java程序设计概述 1.1 Java程序设计平台  具有令人赏心悦目的语法和易于理解的语言,与其他许多优秀语言一样,Java满足这些要求.  可移植...

34210
来自专栏程序猿DD

程序员你为什么这么累【续】:编码习惯-函数编写建议

之前系列文章里面完整的代码已经上github,地址在文章最后 傻瓜都能写出计算机可以读懂的代码,只有优秀的程序员才能写出人能读懂的代码! 在我看来,编写简单的函...

21610
来自专栏WeTest质量开放平台团队的专栏

【腾讯内部干货分享】安卓包体压缩——分析Dalvik字节码进行减包优化

对游戏整体的压缩却不影响场景,对图片的压缩却不影响品质。最麻烦的是对代码进行压缩,简直是让程序们熬白了头发只为包体再小个几K。

2045
来自专栏C语言及其他语言

【工具资源】迈进C世界的第一步

开始学c的小伙伴 肯定对两个问题焦头烂额 如何选择编译器 到哪里去下载想要的编译器 下面就让小编来帮大家解决这两个问题 ? 细心的小伙伴其实已经发现 咱们C语言...

3607
来自专栏java一日一条

写给精明Java开发者的测试技巧

我们都会为我们的代码编写测试,不是吗?毫无疑问,我知道这个问题的答案可能会从 “当然,但你知道怎样才能避免写测试吗?” 到 “必须的!我爱测试”都有。接下来我会...

871

扫码关注云+社区

领取腾讯云代金券