腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
尝试
使用
cassandra
数据
存储
从
eclipse
运行
nutch
时
获取
java.lang.NullPointerException
、
、
、
我正在
尝试
在Windows上用
cassandra
从
eclipse
运行
apache
nutch
。这就是我得到的错误。Injecting urlDir: C:/Users/STAN/Desktop/trunk/urls/seeds.txt InjectorJob: Using class org.apache.gora.
cassandra
.store.CassandraStoreInjectorJob:
j
浏览 1
提问于2017-02-18
得票数 3
3
回答
我能爬行与纳奇,
存储
在卡桑德拉,索引
使用
Solr?
、
、
我希望
使用
Nutch
抓取网页,用Solr索引输出,最后将
数据
存储
在
Cassandra
中。这是可能的吗?
浏览 4
提问于2014-01-01
得票数 0
回答已采纳
1
回答
更新
Nutch
以
获取
每个
获取
的URL的父URL
、
当我
运行
Apache
Nutch
1.4爬虫
时
,我想
存储
一些额外的信息。我想
存储
每个URL的父URL。例如,我想抓取一个有两个指向b.html和c.html的锚链的页面a.html,所以当我抓取a.html
时
,我应该会得到这样的结果:b.html a.html c.html a.html我想
存储
像这样的东西。我已经阅读了
nutch
的工作原理,并在
eclipse
中
运行
了
nutch</e
浏览 0
提问于2012-05-22
得票数 1
1
回答
Nutch
:哪个版本的
Nutch
+
Cassandra
可以正常工作?
、
、
、
我正在
尝试
使用
Nutch
做一些爬行,我想测试
Cassandra
作为后端,但是
使用
最新版本的
nutch
及其依赖项
Cassandra
会在您执行inject、generate、fetch等过程
时
抛出各种错误。我的意思是,你可以在至少一小部分urls上
运行
inject、generate、fech、parse、updatedb,而不会出错。下面是其中一个类在fetch过程中出现错误的示例: org.apache.gora.
cassand
浏览 4
提问于2017-09-30
得票数 0
3
回答
将MySQL连接到Apache
nutch
、
、
我是第一次
使用
Apache
Nutch
。如何在爬网后将
数据
存储
到MySQL
数据
库中?我希望能够轻松地在其他web应用程序中
使用
这些
数据
。
浏览 0
提问于2011-01-13
得票数 3
3
回答
Eclipse
中的
Nutch
错误
、
、
我正在
尝试
从
Eclipse
运行
Apache。我遵守了的指示。但是,“parse”的来源(包括java和test)都有错误。无论如何,我
运行
它,它从seed.txt读取和
获取
URL,并返回以下错误:ParseSegment我想指出,我的目标是
从
Nutch
获取
索引,并将它们
存储
在MongoDB中。
浏览 4
提问于2012-03-31
得票数 0
回答已采纳
1
回答
如何在
Eclipse
中配置
Nutch
、
、
我想在
Eclipse
中为SOLR配置
Nutch
源代码。致以敬意, Jayesh Bhoyar
浏览 1
提问于2014-04-30
得票数 0
回答已采纳
5
回答
如何
使用
Apache
Nutch
保存原始html文件
、
、
现在,我希望将特定网站中的所有原始页面
存储
为html文件,但
使用
Apache
Nutch
只能获得二进制
数据
库文件。如何
使用
Nutch
获取
原始html文件?
Nutch
支持它吗?如果没有,我可以
使用
哪些其他工具来实现我的目标。(支持分布式爬行的工具更好。)
浏览 2
提问于2012-04-04
得票数 5
回答已采纳
1
回答
无法验证
存储
在hbase中的爬行
数据
、
、
、
我已经
使用
'
nutch
‘与HBase作为
存储
后端的网站。我已经参考了这个教程链接- http://wiki.apache.org/
nutch
/
Nutch
2Tutorial。/
运行
时/本地/bin/
nutch
注入urls./
运行
时
浏览 2
提问于2014-05-09
得票数 1
1
回答
是否可以
使用
java代码读取爬行
数据
库?
、
、
我正在
使用
Nutch
抓取一个网站,我想收集所有404网址在爬行过程中。然后,我查找了
Nutch
wiki,发现
使用
nutch
命令“readdb”可以生成如下内容: 现状:1 (db_unfetched)修改时间:清华1月008:00 CST 1970重试间隔: 2592000秒(30天)签名: null 所有404个urls的状态为3。我想这
浏览 1
提问于2017-08-29
得票数 2
回答已采纳
2
回答
Apache步骤解释
、
注入:在这个部分中,apache
从
给定的seed.txt中读取url列表,将url与regex-urlfiler regex进行比较,并
使用
支持的url更新爬行
数据
库。 2)。Generate: bin/
nutch
生成爬行/ crawldb爬行/段
Nutch
从
crawldb
获取
URL,并创建已准备好要
获取
的URL的
获取
列表。
获取
: bin/
nutch
获
浏览 3
提问于2015-04-12
得票数 6
回答已采纳
1
回答
对于时间序列的滚动/聚合,流处理比批处理更好吗?
、
、
、
、
背景- 流处理:
使用
Kafka Streams API来卷起
数据
,并在
Cassandra
中摄取汇总的
数据
。批次处理:将原始
数据
输入
Cassandra
,并维护新摄入的密钥索引。
运行
调
浏览 0
提问于2019-03-25
得票数 1
2
回答
nutch
vs solr索引
、
、
我最近开始了
nutch
的工作,我正在
尝试
了解它是如何工作的。据我所知,
Nutch
基本上是用来抓取网页的,而solr/Lucene是用来索引和搜索的。但当我阅读有关
nutch
的文档
时
,它说
nutch
也做倒排索引。它是否在内部
使用
Lucene进行索引,或者它是否有其他库用于索引?如果它
使用
solr/lucene进行索引,那么为什么有必要像
nutch
教程所说的那样
使用
nutch
配置so
浏览 0
提问于2012-06-01
得票数 10
回答已采纳
1
回答
本地
Eclipse
中的Apache
Nutch
1.9将在Amazon EMR上远程
运行
、
、
、
、
我
使用
的是32位Windows 8,
运行
的是
Eclipse
Juno。我现在正在
尝试
从
我的
Eclipse
内部
运行
Apache
Nutch
1.9
浏览 2
提问于2015-04-20
得票数 0
4
回答
无法设置路径:\tmp的权限
\tmp\hadoop-MayPayne\mapred\staging\MayPayne2016979439\.staging to 0700 当MapReduce作业执行时,我得到了这个错误,我
使用
hadoop1.0.4,然后我知道这是一个已知的问题,我用1.2.0
尝试
了这个问题,但问题仍然存在。
浏览 0
提问于2013-06-20
得票数 7
回答已采纳
2
回答
Nutch
显示以下错误,该怎么办?
但是当我
从
终端
运行
nutch
时
,它显示 用法:
nutch
-core命令 其中COMMAND是以下命令之一: 抓取intranets的一步爬虫 等等…… 请告诉我该怎么做 嘿Tejasp我照你说的做了,我修改了
NUTCH
_HOME=/
nutch
/runtime/local/bin也有crawl.java文件,但是当我这样做的时候 npun@nipun:~$
nutch
crawl urls -dir-- Yo
浏览 0
提问于2012-04-22
得票数 0
2
回答
Nutch
2.3没有在
Cassandra
中正确
存储
爬行
数据
、
、
我正在
运行
一个爬行与大多数默认选项与
Nutch
2.3与卡桑德拉后端。作为种子列表,
使用
了一个带有71个urls的文件,我正在
使用
以下命令爬行:键
存储
在
Cassandra
中,并且创建了f、p和sc列族,但是完成后,我
尝试
用下面的代码读出爬行
数据
。这只显示了正在填充的一些字段。查看FetcherJob和ParserJob中的代码,我不知道为什么内容
浏览 5
提问于2015-03-02
得票数 0
回答已采纳
1
回答
使用
cron作业定期重新爬行拉奇
、
我已经成功地
使用
Nutch
1.12爬行了一个网站,并
使用
以下命令在Solr 6.1中对其进行了索引:当我再次
运行
上面的命令
时
,它会说: [root@2a563cff051
浏览 2
提问于2016-06-19
得票数 0
1
回答
基于
存储
优化的
Nutch
1.17网络爬行
、
、
、
、
我正在
使用
Nutch
1.17爬行超过百万的网站。为了这个我得做些什么。 一次以深度爬虫的形式
运行
爬虫,以便
从
给定的(100万)域
获取
最大URL。第一次,您可以最多
运行
48小
时
。之后,
运行
5到6小
时
后具有相同100万个域的爬虫,并且只选择这些域上新的URL。作业完成后的,Solr中的索引URL,以后不需要
存储
原始的HTML,因此保存
存储
空间,只删除原始
数据
,并维护每个页面元
浏览 5
提问于2020-09-25
得票数 0
回答已采纳
1
回答
使用
DSE Solr
时
的
数据
、
从
Cassandra
文档:编写: 在Lucene中,带有indexed="true“的字段被索引并
存储
为辅助文件,这样字段就可以搜索。索引字段
存储
在
数据
库中,而不是Lucene中,而不考虑
存储
属性值的值,但复制字段除外。复制字段目的地未
存储
在
数据
库中。我想知道在
运行
CQL请求
时
从
哪里
获取
数据
(例如,选择first_name,
从
单个la
浏览 7
提问于2018-01-11
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
什么是大数据?你需要知道的………
工程师手记:Cassandra在风控数据处理中的应用实践
手把手教你写网络爬虫3:开源爬虫框架对比
存储量扩大千倍,Discord 是如何使用Rust语言和ScyllaDB数据库来改进架构的?
诞生于FaceBook的大数据存储
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券