crawler4j - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

运行mvn全新安装时出现maven错误？

、、

[ERROR] /home/user/nutch/crawler4jParsar/crawler4j/crawler4j/src/main/java/edu/uci/ics/crawler4j/company[LeftCurly] [ERROR] /home/user/nutch/crawler4jParsar/crawler4j&#x

浏览 6提问于2018-09-14得票数 0

1回答

如何使用crawler4j添加(集成)爬虫？

、、

我的工作是网络爬虫，从网站上获取数据使用crawler4j和一切顺利，但主要问题是基于ajax的事件。所以，我发现了爬虫库做了这件事，但我不能使用它的地点和时间。在使用crawler4j获取页面之前。我是否使用url来使用crawler4j，并使用它来使用爬行获取Ajax数据(页面)。

浏览 5提问于2019-03-05得票数 0

1回答

如何获取crawler4j中的url是404还是301

是否可以在crawler4j中获取URL是404还是301？

浏览 3提问于2013-02-04得票数 1

1回答

使用Java对任何页面进行Web爬行

、

我正在使用crawler4j抓取网站。我正在通过爬行这些网站来收集所需的信息。我这里的问题是我无法抓取内容。因为抓取的结果是JavaScript代码。下面是使用Jsoup或Crawler4j获取DOM的方法。 <!

浏览 17提问于2019-05-21得票数 0

2回答

它能通过Crawler4j检索网站内容吗？

、、、、

(假设每页有10篇新闻文章)我决定尽可能地使用Crawler4j 从每个页面中获取所有URI，并检索这些URI的内容。对您检索的每个URI进行递归移动。但是，当我尝试使用Crawler4j 的Quickstart时Text length: 3661Number of outgoing links: 86 因此，我想知道crawler4j

浏览 7提问于2016-09-11得票数 2

1回答

我正在实现一个网络爬虫，我使用的是Crawler4j库。我不会在一个网站上得到所有的链接。我试图用Crawler4j提取一个页面上的所有链接，但错过了一些链接。Crawler4j版本: crawler4j-3.3不是的。这个页面上的链接数量:几乎60个，其中4-5个是重复的是页面上的URL列表，是Crawler4j提供的URL列表。我查看了crawler4j使用的'HtmlContentHandler.jav

浏览 1提问于2012-07-03得票数 1

回答已采纳

1回答

网络蜘蛛，它能够抓取基于ajax的网站。

、、、

现在我正在使用Crawler4j，我对此非常满意--但是它不能爬行基于ajax的网站。我曾经使用selenium作为另一种方法，这种方法与幻影结合起来很好。那么，是否有办法将Selenium插入到crawler4j中呢？如果不是-- Java中是否还有另一个很好的库来处理基于ajax的网站？

浏览 0提问于2015-11-12得票数 1

回答已采纳

2回答

如何禁用Crawler4J记录器？

、

我正在使用Crawler4J爬行。但是Crawler4J有一个记录器。如何禁用记录器内部Crawler4J库？

浏览 5提问于2017-05-02得票数 3

回答已采纳

2回答

如何配置这个java爬虫？

、

我下载了用该描述编写的所有这两个文件()，其中一个文件包含crawler4j jar文件和配置文件，另一个文件包含crawler4j的依赖项。将所有这些文件放在类路径中。

浏览 1提问于2011-06-18得票数 1

1回答

Crawler4j无法AJAX爬网

、、

但是crawler4j不支持ajax爬行。我想使用crawler4j，但要使用此功能。我的项目是基于crawler4j的。我有任何办法做，请分享链接和片段。

浏览 7提问于2016-04-28得票数 0

1回答

当我重新启动我的爬虫时，如何在最后的深度后恢复爬行？

、、

你好大家好，我正在做一个web应用程序，从一个特定的网站抓取大量的页面，我开始了我的crawler4j软件的无限深度和页面，但它突然停止，因为互联网连接。

浏览 5提问于2018-11-20得票数 1

回答已采纳

1回答

如何更改Crawler4j中的默认crawlStorageFolder？

、、、、

当我尝试Crawler4j 的快速入门时，我想这是我应该更改结果存储位置的地方。然后我尝试更改为"C:\Fraps\try" .It创建一个名为frontier的文件夹，其中包含一些未知的文件，如je.lck、je.info.0…… 以我的理解，crawler4j可以用于查找外部链接和内容解析换句话说，我可以通过crawler4j下载html文件(里面的文本)。或者我应该通过crawler4j下载什么？

浏览 5提问于2016-09-11得票数 0

1回答

Crawler4j在爬行后一直阻塞

、、

我使用Crawler4j只是从爬行的页面中获取HTML。它成功地为我的测试站点存储了大约50页的检索HTML。它使用我实现的shoudVisit方法，它使用我实现的visit方法。这两件事都没有问题。

浏览 4提问于2015-04-15得票数 1

1回答

对文件系统上的html文件使用crawler4j

、

我发现crawler4j正在建立Http连接。但是对于这种情况，不需要Http连接。schemeRegistry.register(new Scheme("https", 443, SSLSocketFactory.getSocketFactory()));有没有办法在PageFetcher of crawler4j中的SchemeRegistry中注册crawler4j协议，或者crawler4j总是用于服务器上的托管文件？

浏览 0提问于2012-12-26得票数 2

1回答

使用mongoDB的Crawler4j

、

我在研究crawler4j。我发现它使用BerkeleyDB作为数据库。我正在使用mongoDB开发一个Grails应用程序，我想知道crawler4j在我的应用程序中工作有多灵活。是否可以将crawler4j配置为使用mongoDB而不是BerkeleyDB作为默认数据存储区？任何建议都会很有帮助。谢谢

浏览 6提问于2014-07-01得票数 2

1回答