我正在实现一个网络爬虫,我使用的是Crawler4j库。我不会在一个网站上得到所有的链接。我试图用Crawler4j提取一个页面上的所有链接,但错过了一些链接。
Crawler4j版本: crawler4j-3.3
我使用的网址:http://testsite2012.site90.com/frontPage.html
不是的。这个页面上的链接数量:几乎60个,其中4-5个是重复的
不是的。crawler4j给出的链接数: 23
this是页面上的URL列表,this是Crawler4j提供的URL列表。
我查看了crawler4j使用的'HtmlContentHandler.java‘文件来提取链接。在这种情况下,只提取与'src‘和'href’链接相关联的链接。
我发现了这些文件之间的区别。Crawler4j缺少与'src‘或'href’属性不关联且位于'script‘标记下的链接。this是crawler4j未抓取的链接列表。
如何提取此页面上的所有链接?我是否需要在超文本标记语言解析的页面上进行字符串操作(如查找'http‘),或者我是否应该更改'HtmlContentHandler.java’文件的代码?
哪种方法是最好的?
即使我做了字符串操作并提取了这个页面上的所有链接,但是Crawler4j是使用自己抓取的链接来抓取网站的,在这种情况下,它不会错过一些页面吗?
发布于 2012-07-03 16:59:20
尝试使用Regular Expressions查找链接。
您可以查看here作为示例。
https://stackoverflow.com/questions/11307491
复制相似问题