Nutch crawler不适用于大型urls

、、、

我正在尝试在Amazon EMR集群上设置一个nutch爬虫，该集群有两个可伸缩的主节点。我的种子url列表只有10000个url，但我的爬虫在Map-reduce作业中的抓取阶段停留在90%左右。它可以很好地运行5000个urls。有没有我可能遗漏的配置？

浏览 7提问于2017-08-18得票数 0

1回答

执行Apache nutch-2.2.1时出错

、、、

/nutch crawl -topN / -dir download/ nutch 3 urls 5InjectorJob:使用类org.apache.gora.memory.store.MemStoreInjectorJob:被筛选器拒绝的urls总数:0 InjectorJob:规范化和筛选后注入的urls总数:0线程"main“中的异常java.lang.RuntimeException:作业失败(GeneratorJob.java:19

浏览 1提问于2014-01-13得票数 0

2回答

设置并运行apache nutch 2.2.1

、、、

如果我要在自己的桌面上运行它，那么转到 InjectorJob:使用类org.apache.gora.memory.store.MemStore作为Gora存储类InjectorJob:过滤器拒绝的urls总数:0 InjectorJob:经过规范化和过

浏览 6提问于2014-12-09得票数 0

回答已采纳

1回答

本地Eclipse中的Apache Nutch 1.9将在Amazon EMR上远程运行

、、、、

我现在正在尝试从我的Eclipse内部运行Apache Nutch 1.9。我做了Ant构建来创建Nutch Eclipse项目，并且我正在成功地在Eclipse工作区中导出。我得到了以下错误：Injector: crawlDb: crawl/crawldb Injector: urlDir: urlsInjector: Converting injected urls to crawl db entries.您能指导我如何让我

浏览 2提问于2015-04-20得票数 0

1回答

使用Gora集成Nutch- Hbase和Solr

、、、

我遵循了nutch2教程并成功地将nutch与HBase集成--我的问题是当我在runtime/local/bin目录中使用以下命令./nutch crawl urls/seed.txt abc -depth 50 -topN 50爬行url时，Exception in thread "main" java.lang.RuntimeExceptionat org.apache.nutch.crawl.Crawler

浏览 3提问于2013-10-18得票数 0

1回答

Nutch : org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在

、

crawl urls -dir crawl -depth 3 -topN 5InjectorJob: Using class org.apache.gora.hbase.store.HBaseStoreorg.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) at o

浏览 1提问于2013-07-31得票数 1

1回答

Apache与MySQL在Windows上的集成

、、

在/runtime/local/urls目录中添加了带有seeds.txt值的www.apache.nutch.org文件。(NutchJob.java:50) at org.apache.nutch.crawl.Crawler.runTool(Crawler.java:68) at org.apache.<

浏览 1提问于2013-06-15得票数 0

2回答

java.lang.Exception: java.lang.IncompatibleClassChangeError:找到接口org.apache.hadoop.mapreduce.TaskAttemptContext，，但需要类

、、

/hadoop jar apache-nutch-2.2.1.job org.apache.nutch.crawl.Crawler urls -solr //:8983 -depth 2Java.lang.Exceptionmapreduce.Job: Counters: 0 Exception in thread "main" java.lang.RuntimeException: job failed: name=inject urls:

浏览 2提问于2014-05-31得票数 3

1回答

在windows 7中运行Apache Nutch

我想和Cygwin一起竞选Nutch。我在抓取内容上有问题$ bin/nutch爬行urls -dir -depth 3 -topN 5**cygpath:无法转换空路径 at org.apache.nutch.crawl.InjectorJob.run(InjectorJob.java:233) at org.apache.

浏览 1提问于2013-10-01得票数 1

1回答

错误:无法找到或加载主类org.apache.nutch.crawl.Crawler

、、

我尝试使用Cygwin64/Windows7运行Nutch 2.2.1，并得到以下错误：$ ./nutch crawl urls -dir test -depth 3 -topN 4Error: Could not findor load main class org.apache.nutch</e

浏览 2提问于2014-12-11得票数 2

1回答

gora-mongodb.mapping.XML属性文件

、

2)我在Apache-Nutch-2.2.1\运行时\local\conf文件夹中创建了一个示例文件，并添加了我的MongoDB集合的名称。当我运行Nutch时，会得到以下错误：cygpath: can't convert empty path Exception in threadat org.apache.nutch.crawl.Crawler.runToo

浏览 1提问于2014-12-13得票数 0

回答已采纳

1回答

apache 1.12中的类是org.apache.nutch.crawl.Crawler吗？

我让它在Windows 7上运行，我为nutch安装设置了类路径。在看到下面显示的错误(缺少主类)后，我麻烦地拍摄了一段时间的设置。C:\Users\Public\PublicApps\apache-nutch-1.12>nutch.bat crawl urls -dir crawl -depth 1 > crawl.log Error: Could not find or load main class org.apache.nutch.crawl.Crawler 最后，我

浏览 12提问于2016-10-26得票数 0

回答已采纳

1回答

带有hbase错误的apache nutch* 2.2.1*

、、、

InjectorJob: total number of urls rejected by filters: 0 at org.apache.nutch.crawl.GeneratorJob.run(GeneratorJob.java:199) at org.apache.nutch.crawl.Crawler.runTool(Crawler</em

浏览 3提问于2014-08-11得票数 0

1回答

从MySQL读取Nutch抓取的数据

、、

我写了一个程序在MySQL中存储nutch(2.1)抓取的结果。它工作得很好。我获取指定用于搜索的文件格式。我得到的jpeg文件很少。我想从数据库中获取这些图像(我不确定它们是否存储在数据库中)。我使用了以下代码： ToolRunner.run(NutchConfiguration.create(), new org.apa

浏览 2提问于2013-02-21得票数 1

回答已采纳

1回答

有没有办法继续Nutch* Crawl任务，它已经被意外杀死？*

、、、

我有一个Nutch爬行任务，它已经运行了一整天，直到我错误地杀死了这个进程。我不想重新抓取种子(花费很多时间)，所以我想知道是否有一种方法或一些Nutch Crawler参数，可以让爬虫忽略那些已经被抓取的urls。非常感谢！

浏览 2提问于2012-04-07得票数 0

回答已采纳

1回答

nutch crawler相对urls问题

、、、

有没有人遇到过标准html解析器插件处理相对urls的问题？有一个site - ，当浏览一个链接的href设置为'?id_r=442&id=41&order=‘时，浏览器自然会把你带到当然是坏了。那么，为什么list_books.asp消失了呢？

浏览 2提问于2010-09-29得票数 1

1回答

脚本和样式表的Symfony DomCrawler绝对urls

、

有什么方法可以获得脚本和样式表的绝对urls吗？对于链接，可以用一种简单的方式完成：$crawler->filter('a')->each(function (Crawler$node, $i) {}); 但是它不适用于js和css。

浏览 9提问于2014-12-31得票数 0

1回答

在ubuntu中使用nutch* 1.4*

、、

我尝试在ubuntu中使用nutch 1.4 crawler，但是当我尝试使用nutch wiki中建议的所有设置来执行nutcg时，它给出了这个错误：bin/nutch crawl urls -dir crawl -depth 1 bin/nutch<

浏览 2提问于2012-03-12得票数 0

回答已采纳

2回答

Apache Nutch命令无法执行

、

我使用的是MacOSX 10.8.3，我的JAVA_HOME设置得很完美，甚至可以在执行bin/nutch时看到各种命令选项(根据维基的说法)。但是当我使用bin/nutch crawl urls -dir crawl -depth 3 -topN 5时，我得到了以下错误：仅供参考:我已经在apache-

浏览 7提问于2013-05-13得票数 1

1回答

IOException IOException #Crawl.run() -> #JobClient.runJob()

、、、

我使用的是Nutch1.6和Hadoop0.20.2(在设置文件访问权限时选择此版本是为了windows兼容)。rootUrlDir = urls深度=1topN =1注射器: crawlDb:爬行/爬行b注射器: urlDir: urls at rjpb.sp.

浏览 1提问于2013-03-31得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

执行Apache nutch-2.2.1时出错

设置并运行apache nutch 2.2.1

本地Eclipse中的Apache Nutch 1.9将在Amazon EMR上远程运行

使用Gora集成Nutch- Hbase和Solr

Nutch : org.apache.hadoop.mapreduce.lib.input.InvalidInputException:输入路径不存在

Apache与MySQL在Windows上的集成

java.lang.Exception: java.lang.IncompatibleClassChangeError:找到接口org.apache.hadoop.mapreduce.TaskAttemptContext，，但需要类

在windows 7中运行Apache Nutch

错误:无法找到或加载主类org.apache.nutch.crawl.Crawler

gora-mongodb.mapping.XML属性文件

apache 1.12中的类是org.apache.nutch.crawl.Crawler吗？

带有hbase错误的apache nutch* 2.2.1*

从MySQL读取Nutch抓取的数据

有没有办法继续Nutch* Crawl任务，它已经被意外杀死？*

nutch crawler相对urls问题

脚本和样式表的Symfony DomCrawler绝对urls

在ubuntu中使用nutch* 1.4*

Apache Nutch命令无法执行

IOException IOException #Crawl.run() -> #JobClient.runJob()

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐