首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >Apache Nutch Hadoop集成

Apache Nutch Hadoop集成
EN

Stack Overflow用户
提问于 2019-03-13 16:07:57
回答 1查看 278关注 0票数 2

我将apache-nutch-1.15和hadoop配置为按照https://wiki.apache.org/nutch/NutchHadoopTutorial提供的链接在部署模式下运行

但是当我尝试运行下面的命令时

代码语言:javascript
运行
复制
hadoop jar apache-nutch-${version}.job org.apache.nutch.crawl.Crawl urls -dir crawl -depth 3 -topN 5

我得到了以下异常

代码语言:javascript
运行
复制
Exception in thread "main" java.lang.ClassNotFoundException: org.apache.nutch.crawl.Crawl
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    at java.lang.Class.forName0(Native Method)
    at java.lang.Class.forName(Class.java:348)
    at org.apache.hadoop.util.RunJar.run(RunJar.java:214)
    at org.apache.hadoop.util.RunJar.main(RunJar.java:136)

类org.apache.nutch.crawl.Crawl在NutchV1.15中不存在,但在NutchV1.17中存在。

请帮我弄一下这个

EN

回答 1

Stack Overflow用户

发布于 2019-04-03 19:58:49

apache nutch爬网到hdfs的文档自2014年以来未更新。新版本的apache nutch没有任何名为org.apache.nutch.crawl.Crawl的类。

要运行apache nutch,请遵循与爬行到本地文件系统(https://wiki.apache.org/nutch/NutchTutorial)相关的文档。在链接中选择“选项2:从源代码发行版设置Nutch”,那么您将在运行时目录中有一个部署文件夹(部署模式用于将数据转储到hadoop)

转到deploy文件夹,通过将所有本地路径替换为hdfs路径,执行上述链接中针对本地模式提到的相同命令

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55137032

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档