尝试使用cassandra数据存储从eclipse运行nutch时获取java.lang.NullPointerException

腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

1回答

、、、

我正在尝试在Windows上用cassandra从eclipse运行apache nutch。这就是我得到的错误。Injecting urlDir: C:/Users/STAN/Desktop/trunk/urls/seeds.txt InjectorJob: Using class org.apache.gora.cassandra.store.CassandraStoreInjectorJob: j

浏览 1提问于2017-02-18得票数 3

3回答

我能爬行与纳奇，存储在卡桑德拉，索引使用Solr？

、、

我希望使用Nutch抓取网页，用Solr索引输出，最后将数据存储在Cassandra中。这是可能的吗？

浏览 4提问于2014-01-01得票数 0

回答已采纳

1回答

更新Nutch以获取每个获取的URL的父URL

、

当我运行Apache Nutch 1.4爬虫时，我想存储一些额外的信息。我想存储每个URL的父URL。例如，我想抓取一个有两个指向b.html和c.html的锚链的页面a.html，所以当我抓取a.html时，我应该会得到这样的结果：b.html a.html c.html a.html我想存储像这样的东西。我已经阅读了nutch的工作原理，并在eclipse中运行了nutch</e

浏览 0提问于2012-05-22得票数 1

1回答

Nutch:哪个版本的Nutch + Cassandra可以正常工作？

、、、

我正在尝试使用Nutch做一些爬行，我想测试Cassandra作为后端，但是使用最新版本的nutch及其依赖项Cassandra会在您执行inject、generate、fetch等过程时抛出各种错误。我的意思是，你可以在至少一小部分urls上运行inject、generate、fech、parse、updatedb，而不会出错。下面是其中一个类在fetch过程中出现错误的示例： org.apache.gora.cassand

浏览 4提问于2017-09-30得票数 0

3回答

将MySQL连接到Apache nutch

、、

我是第一次使用Apache Nutch。如何在爬网后将数据存储到MySQL数据库中？我希望能够轻松地在其他web应用程序中使用这些数据。

浏览 0提问于2011-01-13得票数 3

3回答

Eclipse中的Nutch错误

、、

我正在尝试从Eclipse运行Apache。我遵守了的指示。但是，“parse”的来源(包括java和test)都有错误。无论如何，我运行它，它从seed.txt读取和获取URL，并返回以下错误：ParseSegment我想指出，我的目标是从Nutch获取索引，并将它们存储在MongoDB中。

浏览 4提问于2012-03-31得票数 0

回答已采纳

1回答

如何在Eclipse中配置Nutch

、、

我想在Eclipse中为SOLR配置Nutch源代码。致以敬意， Jayesh Bhoyar

浏览 1提问于2014-04-30得票数 0

回答已采纳

5回答

如何使用Apache Nutch保存原始html文件

、、

现在，我希望将特定网站中的所有原始页面存储为html文件，但使用Apache Nutch只能获得二进制数据库文件。如何使用Nutch获取原始html文件？ Nutch支持它吗？如果没有，我可以使用哪些其他工具来实现我的目标。(支持分布式爬行的工具更好。)

浏览 2提问于2012-04-04得票数 5

回答已采纳

1回答

无法验证存储在hbase中的爬行数据

、、、

我已经使用'nutch‘与HBase作为存储后端的网站。我已经参考了这个教程链接- http://wiki.apache.org/nutch/Nutch2Tutorial。/运行时/本地/bin/nutch注入urls./运行时

浏览 2提问于2014-05-09得票数 1

1回答

是否可以使用java代码读取爬行数据库？

、、

我正在使用Nutch抓取一个网站，我想收集所有404网址在爬行过程中。然后，我查找了Nutch wiki，发现使用nutch命令“readdb”可以生成如下内容：现状:1 (db_unfetched)修改时间:清华1月008:00 CST 1970重试间隔: 2592000秒(30天)签名: null 所有404个urls的状态为3。我想这

浏览 1提问于2017-08-29得票数 2

回答已采纳

2回答

Apache步骤解释

、

注入:在这个部分中，apache从给定的seed.txt中读取url列表，将url与regex-urlfiler regex进行比较，并使用支持的url更新爬行数据库。 2)。Generate: bin/nutch生成爬行/ crawldb爬行/段Nutch从crawldb获取URL，并创建已准备好要获取的URL的获取列表。获取: bin/nutch获

浏览 3提问于2015-04-12得票数 6

回答已采纳

1回答

对于时间序列的滚动/聚合，流处理比批处理更好吗？

、、、、

背景- 流处理:使用Kafka Streams API来卷起数据，并在Cassandra中摄取汇总的数据。批次处理:将原始数据输入Cassandra，并维护新摄入的密钥索引。运行调

浏览 0提问于2019-03-25得票数 1

2回答

nutch vs solr索引

、、

我最近开始了nutch的工作，我正在尝试了解它是如何工作的。据我所知，Nutch基本上是用来抓取网页的，而solr/Lucene是用来索引和搜索的。但当我阅读有关nutch的文档时，它说nutch也做倒排索引。它是否在内部使用Lucene进行索引，或者它是否有其他库用于索引？如果它使用solr/lucene进行索引，那么为什么有必要像nutch教程所说的那样使用nutch配置so

浏览 0提问于2012-06-01得票数 10

回答已采纳

1回答

本地Eclipse中的Apache Nutch* 1.9将在Amazon EMR上远程运行*

、、、、

我使用的是32位Windows 8，运行的是Eclipse Juno。我现在正在尝试从我的Eclipse内部运行Apache Nutch 1.9

浏览 2提问于2015-04-20得票数 0

4回答

无法设置路径：\tmp的权限

\tmp\hadoop-MayPayne\mapred\staging\MayPayne2016979439\.staging to 0700 当MapReduce作业执行时，我得到了这个错误，我使用hadoop1.0.4，然后我知道这是一个已知的问题，我用1.2.0尝试了这个问题，但问题仍然存在。

浏览 0提问于2013-06-20得票数 7

回答已采纳

2回答

Nutch显示以下错误，该怎么办？

但是当我从终端运行nutch时，它显示用法: nutch -core命令其中COMMAND是以下命令之一：抓取intranets的一步爬虫等等…… 请告诉我该怎么做嘿Tejasp我照你说的做了，我修改了NUTCH_HOME=/nutch/runtime/local/bin也有crawl.java文件，但是当我这样做的时候 npun@nipun:~$ nutch crawl urls -dir-- Yo

浏览 0提问于2012-04-22得票数 0

2回答

Nutch 2.3没有在Cassandra中正确存储爬行数据

、、

我正在运行一个爬行与大多数默认选项与Nutch 2.3与卡桑德拉后端。作为种子列表，使用了一个带有71个urls的文件，我正在使用以下命令爬行：键存储在Cassandra中，并且创建了f、p和sc列族，但是完成后，我尝试用下面的代码读出爬行数据。这只显示了正在填充的一些字段。查看FetcherJob和ParserJob中的代码，我不知道为什么内容

浏览 5提问于2015-03-02得票数 0

回答已采纳

1回答

使用cron作业定期重新爬行拉奇

、

我已经成功地使用Nutch 1.12爬行了一个网站，并使用以下命令在Solr 6.1中对其进行了索引：当我再次运行上面的命令时，它会说： [root@2a563cff051

浏览 2提问于2016-06-19得票数 0

1回答

基于存储优化的Nutch* 1.17网络爬行*

、、、、

我正在使用Nutch 1.17爬行超过百万的网站。为了这个我得做些什么。一次以深度爬虫的形式运行爬虫，以便从给定的(100万)域获取最大URL。第一次，您可以最多运行48小时。之后，运行5到6小时后具有相同100万个域的爬虫，并且只选择这些域上新的URL。作业完成后的，Solr中的索引URL，以后不需要存储原始的HTML，因此保存存储空间，只删除原始数据，并维护每个页面元

浏览 5提问于2020-09-25得票数 0

回答已采纳

1回答

使用DSE Solr时的数据

、

从Cassandra文档：编写：在Lucene中，带有indexed="true“的字段被索引并存储为辅助文件，这样字段就可以搜索。索引字段存储在数据库中，而不是Lucene中，而不考虑存储属性值的值，但复制字段除外。复制字段目的地未存储在数据库中。我想知道在运行CQL请求时从哪里获取数据(例如，选择first_name，从单个la

浏览 7提问于2018-01-11得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云