首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >使用自定义爬虫访问分页中的所有页面

使用自定义爬虫访问分页中的所有页面
EN

Stack Overflow用户
提问于 2013-02-08 21:18:35
回答 2查看 1.1K关注 0票数 3

我已经使用jsoup构建了一个自定义爬虫。我可以删除特定列表页面中的所有数据。但是对于有分页的页面,如何从pagination元素获取链接呢?就像在亚马逊、ebay等网站上出现的任何零售列表一样,我将产品列表第一页的URL传递给jsoup。它工作得很好。但是我如何自动化获取剩余页面链接的过程呢?

我知道我可以通过硬编码分页的类来获得元素。但我正在寻找一种通用的方法来做这件事。

EN

回答 2

Stack Overflow用户

发布于 2018-03-11 00:03:12

代码语言:javascript
运行
复制
    for (int i = 1; i < 10; i++) {
        String url = "http://exampleurl.com/index.php?page=" + i;
        Document doc = Jsoup.connect(url).get();
    }

希望这能给你带来一些启发。该代码将循环通过具有分页的网站中的十个页面。

票数 1
EN

Stack Overflow用户

发布于 2014-05-25 06:06:35

如果站点使用rel="next"注释其分页链接,则可以使用这些链接检索更多页面。

除此之外,HTML本身并没有指定分页中页面之间的关系。你必须使用启发式(例如,包含“下一步”的文本的链接或具有递增数字的链接序列(1,2,3...最后))。显然,这些启发式方法并不适用于每个站点,并且当站点的设计更新时可能会停止工作。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/14773465

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档