首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何使用crawler4j提取页面上的所有链接?

如何使用crawler4j提取页面上的所有链接?
EN

Stack Overflow用户
提问于 2012-07-03 16:51:17
回答 1查看 2.6K关注 0票数 1

我正在实现一个网络爬虫,我使用的是Crawler4j库。我不会在一个网站上得到所有的链接。我试图用Crawler4j提取一个页面上的所有链接,但错过了一些链接。

Crawler4j版本: crawler4j-3.3

我使用的网址:http://testsite2012.site90.com/frontPage.html

不是的。这个页面上的链接数量:几乎60个,其中4-5个是重复的

不是的。crawler4j给出的链接数: 23

this是页面上的URL列表,this是Crawler4j提供的URL列表。

我查看了crawler4j使用的'HtmlContentHandler.java‘文件来提取链接。在这种情况下,只提取与'src‘和'href’链接相关联的链接。

我发现了这些文件之间的区别。Crawler4j缺少与'src‘或'href’属性不关联且位于'script‘标记下的链接。this是crawler4j未抓取的链接列表。

如何提取此页面上的所有链接?我是否需要在超文本标记语言解析的页面上进行字符串操作(如查找'http‘),或者我是否应该更改'HtmlContentHandler.java’文件的代码?

哪种方法是最好的?

即使我做了字符串操作并提取了这个页面上的所有链接,但是Crawler4j是使用自己抓取的链接来抓取网站的,在这种情况下,它不会错过一些页面吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-07-03 16:59:20

尝试使用Regular Expressions查找链接。

您可以查看here作为示例。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11307491

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档