我将apache-nutch-1.15和hadoop配置为按照https://wiki.apache.org/nutch/NutchHadoopTutorial提供的链接在部署模式下运行
但是当我尝试运行下面的命令时
hadoop jar apache-nutch-${version}.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5
我得到了以下异常
Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
at org.apache.hadoop.util.RunJar.run(RunJar.java:214)
at org.apache.hadoop.util.RunJar.main(RunJar.java:136)
类org.apache.nutch.crawl.Crawl在NutchV1.15中不存在,但在NutchV1.17中存在。
请帮我弄一下这个
发布于 2019-04-03 19:58:49
apache nutch爬网到hdfs的文档自2014年以来未更新。新版本的apache nutch没有任何名为org.apache.nutch.crawl.Crawl的类。
要运行apache nutch,请遵循与爬行到本地文件系统(https://wiki.apache.org/nutch/NutchTutorial)相关的文档。在链接中选择“选项2:从源代码发行版设置Nutch”,那么您将在运行时目录中有一个部署文件夹(部署模式用于将数据转储到hadoop)
转到deploy文件夹,通过将所有本地路径替换为hdfs路径,执行上述链接中针对本地模式提到的相同命令
https://stackoverflow.com/questions/55137032
复制相似问题