文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用crawler4j提取页面上的所有链接？

问如何使用crawler4j提取页面上的所有链接？
EN

Stack Overflow用户

提问于 2012-07-03 16:51:17

回答 1查看 2.6K关注 0票数 1

我正在实现一个网络爬虫，我使用的是Crawler4j库。我不会在一个网站上得到所有的链接。我试图用Crawler4j提取一个页面上的所有链接，但错过了一些链接。

Crawler4j版本: crawler4j-3.3

我使用的网址:http://testsite2012.site90.com/frontPage.html

不是的。这个页面上的链接数量:几乎60个，其中4-5个是重复的

不是的。crawler4j给出的链接数: 23

this是页面上的URL列表，this是Crawler4j提供的URL列表。

我查看了crawler4j使用的'HtmlContentHandler.java‘文件来提取链接。在这种情况下，只提取与'src‘和'href’链接相关联的链接。

我发现了这些文件之间的区别。Crawler4j缺少与'src‘或'href’属性不关联且位于'script‘标记下的链接。this是crawler4j未抓取的链接列表。

如何提取此页面上的所有链接？我是否需要在超文本标记语言解析的页面上进行字符串操作(如查找'http‘)，或者我是否应该更改'HtmlContentHandler.java’文件的代码？

哪种方法是最好的？

即使我做了字符串操作并提取了这个页面上的所有链接，但是Crawler4j是使用自己抓取的链接来抓取网站的，在这种情况下，它不会错过一些页面吗？

java

html

hyperlink

web-crawler

crawler4j

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-07-03 16:59:20

尝试使用Regular Expressions查找链接。

您可以查看here作为示例。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11307491

复制

相似问题

问如何使用crawler4j提取页面上的所有链接？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用crawler4j提取页面上的所有链接？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用crawler4j提取页面上的所有链接？
EN