我使用的是Solr 5.4.1和Apache Nutch 1.12。我能够抓取数据,但在Solr中索引的最后一步中,我遇到了以下错误。
SOLRIndexWriter
solr.server.url : URL of the SOLR instance
solr.zookeeper.hosts : URL of the Zookeeper quorum
solr.commit.size : buffer size when sending to SOLR (default 1000)
solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml)
solr.auth : use authentication (default false)
solr.auth.username : username for authentication
solr.auth.password : password for authentication
SolrIndexer: deleting 1/1 documents
SolrIndexer: deleting 1/1 documents
Indexer: java.io.IOException: Job failed!
at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:836)
at org.apache.nutch.indexer.IndexingJob.index(IndexingJob.java:145)
at org.apache.nutch.indexer.IndexingJob.run(IndexingJob.java:228)
at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:70)
at org.apache.nutch.indexer.IndexingJob.main(IndexingJob.java:237)
发布于 2018-06-15 05:21:44
确保您的索引名称都是小写的。
检查您的数据、hbase.rootdir、hbase.data和hbase.zooKeeper- hbase_site.xml以及日志文件路径是否正确。
最后,确保将hbase_site.xml复制到您的nutch/conf目录中。如果你运行的是nutch 2.x,那么在使用ant进行编译之前,或者在编译完成后重新编译(ant clean,ant re)。
https://stackoverflow.com/questions/50105190
复制相似问题