我已经使用jsoup构建了一个自定义爬虫。我可以删除特定列表页面中的所有数据。但是对于有分页的页面,如何从pagination元素获取链接呢?就像在亚马逊、ebay等网站上出现的任何零售列表一样,我将产品列表第一页的URL传递给jsoup。它工作得很好。但是我如何自动化获取剩余页面链接的过程呢?
我知道我可以通过硬编码分页的类来获得元素。但我正在寻找一种通用的方法来做这件事。
发布于 2018-03-11 00:03:12
for (int i = 1; i < 10; i++) {
String url = "http://exampleurl.com/index.php?page=" + i;
Document doc = Jsoup.connect(url).get();
}
希望这能给你带来一些启发。该代码将循环通过具有分页的网站中的十个页面。
发布于 2014-05-25 06:06:35
如果站点使用rel="next"
注释其分页链接,则可以使用这些链接检索更多页面。
除此之外,HTML本身并没有指定分页中页面之间的关系。你必须使用启发式(例如,包含“下一步”的文本的链接或具有递增数字的链接序列(1,2,3...最后))。显然,这些启发式方法并不适用于每个站点,并且当站点的设计更新时可能会停止工作。
https://stackoverflow.com/questions/14773465
复制相似问题