腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何将
apache
nutch
抓取
的
数据检索
到我
的
web
、
、
我是
apache
nutch
的
新手。我已经爬行了两个网站
的
数据由
apache
nutch
到solr,并执行查询,并获得在json形式。我会在我
的
网站上展示那些
抓取
的
数据。我刚刚开始探索
apache
nutch
& solr。这对我
的
项目非常重要。如果可以的话,请推荐一些教程。提前谢谢。
浏览 19
提问于2019-02-02
得票数 0
回答已采纳
1
回答
apache
nutch
中
的
依赖关系问题
、
、
尝试将
apache
nutch
与hadoop集成。构建
apache
-
nutch
-1.15.job文件后,使用ant将其放在运行时文件夹中,并尝试运行脚本bin/crawl,但得到一些依赖错误。在提取.job文件时,可以看到其中嵌入
的
所有必需
的
依赖项。此外,嵌入
的
依赖项版本也没有问题。at org.
apache
.
nutch
.net.URLNormalizers.<init>(URLNormalizers.java:
浏览 30
提问于2019-03-28
得票数 2
1
回答
nutch
使用
的
协议
、
、
有人能告诉我
nutch
使用哪种协议来获取页面吗?我想看看
nutch
提出了什么样
的
请求?我也尝试过wireshark,但有太多
的
数据包,我不能识别哪个是
nutch
? 请帮帮我..
浏览 1
提问于2012-06-05
得票数 0
1
回答
如何将
Apache
nutch
从一步跳到下一步
、
、
我使用
的
是
apache
Nutch
2.3。我想跳过
apache
nutch
的
抓取
步骤,跳到下一个步骤,即解析,也就是说,假设我
的
爬行处于
抓取
状态,我想要进入解析步骤,这样它就可以提前完成。如何跳过
apache
nutch
从一步到下一步?
浏览 0
提问于2015-02-02
得票数 1
2
回答
apache
nutch
不
抓取
网站
、
、
我已经安装了用于网络爬行
的
apache
nutch
。我想
抓取
一个有以下robots.txt
的
网站Disallow: / 有没有办法用
apache
nutch
抓取
这个网站?
浏览 1
提问于2012-08-07
得票数 1
回答已采纳
1
回答
通过
web
爬网创建数据集
、
、
我想建立一个由大约2000-3000个网页组成
的
数据集,从几个种子URL开始。我尝试使用
Nutch
爬虫,但我无法完成它(无法将获取
的
‘片段’数据转换为html页面)。对你使用过
的
其他爬虫或其他工具有什么建议吗?如果
web
页面包含绝对URL,这将使脱机使用数据集变得不可能,该怎么办?
浏览 2
提问于2012-01-22
得票数 0
回答已采纳
1
回答
错误:找不到或加载主类org.
apache
.
nutch
.crawl.InjectorJob
、
我正在跟踪url 来
抓取
数据..bin/
nutch
inject crawl/crawldb dmoz/home/admin/Desktop/
nutch
-solr/
apache
-
nutch
-2.3/src/java/org/
apache<
浏览 1
提问于2016-01-12
得票数 1
回答已采纳
2
回答
带有Lucene
的
Apache
Nutch
、
、
、
我们在Lucene中有一个遗留代码,作为新
的
需求,我们需要使用
Apache
Nutch
进行爬行。这意味着
Apache
Nutch
应该
抓取
内容,然后现有的Lucene分析器应该生成索引。我
的
问题是
Apache
Nutch
已经生成了索引,而我无法从中生成内容。我们不想使用
Nutch
索引。 你是建议我使用另一个爬虫,还是仍然可以使用
Apache
Nutch
来达到这个目的?
浏览 0
提问于2013-08-22
得票数 1
2
回答
使用
Apache
Nutch
抓取
图像
、
、
、
、
我安装了
Apache
Nutch
2.3.1、Solr6.5.1和MongoDB 3.4.7。在我
抓取
包含许多图像
的
urls后,在Solr和mongoDB中没有任何图像和视频。我还更改了
apache
nutch
中
的
regex-urlfilter.txt文件,并删除了与图像相关
的
后缀(.png、.jpeg、.gift等)。这样做之后,
Apache
Nutch
将不会
抓取
图像。现在我想知道如何
抓取<
浏览 1
提问于2017-12-03
得票数 2
2
回答
格式错误
的
URL:'',正在跳过(java.net.MalformedURLException
、
我用
nutch
1.3
抓取
网站。当
nutch
抓取
我
的
站点时,我在日志中看到以下异常:at org.
apache
.
nutch
.crawl.Generator$Selector.reduce(Generator.java:247) at org.
a
浏览 0
提问于2011-12-16
得票数 0
1
回答
以纯文本格式从
nutch
获取数据
、
、
、
、
我正在使用
apache
nutch
来
抓取
网站。当我使用readseg命令读取段中
的
内容时,我得到
的
格式如下:有什么方法可以获得纯文本格式
的
web
数据吗?
浏览 0
提问于2018-05-10
得票数 0
1
回答
Apache
Nutch
-路径问题
、
、
我正在尝试设置
Apache
Nutch
抓取
URL,遵循指南。作为一个较老
的
指南(该指南适用于1.x版,我使用
的
是2.3版),我对结构进行了必要
的
更改。但是,当我尝试运行爬网时,我得到以下错误: root@IndiStage:~# /usr/local/
nutch
/framework/
apache
-
nutch
-2.3/src/bin/crawl urlsIn
浏览 0
提问于2015-11-15
得票数 9
1
回答
在EMR上运行
Nutch
爬网(新手)
、
、
我是第一次使用EMR/Hadoop,也是第一次使用
Apache
Nutch
。我正在尝试使用
Apache
Nutch
2.1来做一些屏幕
抓取
。我一直在阅读
Nutch
的
设置维基: $
NUTCH
_HOME
浏览 1
提问于2013-06-03
得票数 2
1
回答
Nutch
爬行结果为JSON
、
、
、
我正在使用
apache
-
nutch
-2.1进行爬行。有没有可能以json
的
形式获取
抓取
的
结果?我编写了一个使用
apache
-
nutch
-2.1进行爬行
的
java程序。如何以JSON格式检索
抓取
的
结果。这可能是一个愚蠢
的
问题,但当我在谷歌上搜索它时。这与此无关。 我如何获得
抓取
结果
的
json?
浏览 1
提问于2013-06-21
得票数 4
2
回答
如何使用solr和
nutch
自动索引数据?
、
、
、
、
我想自动索引一个文档或网站时,它是馈送到
apache
solr。我们如何才能做到这一点?我见过使用需要通过php脚本调用
的
CRON作业
的
示例,但它们
的
解释不是很清楚。
浏览 1
提问于2015-05-28
得票数 0
1
回答
如何在分布式模式下运行
apache
nutch
、
、
我使用
的
是
Apache
Nutch
2.3。我有一个由4个Hadoop (1.2.1)节点组成
的
小型集群。我正在运行爬虫程序
的
一个实例。它每天
抓取
大约30k-50k个页面。我不得不每天
抓取
更多
的
页面(假设价值约为100万)。我已经尝试了
Nutch
的
FAQ中
的
不同问题。但是
抓取
的
文档不能增加。我认为我应该在完全分布式模式下运行
Nutch
(我期望<
浏览 4
提问于2015-09-24
得票数 0
1
回答
如何限制
Apache
Nutch
2.3.1
抓取
故事内容而不是侧边栏
、
、
、
、
我得
抓取
一些新闻网站。我已经在Hadoop 2.7.4和Hbase集群上安装了
apache
Nutch
2.3.1。我必须通过solr 6.6.1提供搜索。在
抓取
一些网站后,我观察到
Nutch
抓取
页面中
的
所有内容。在新闻网站中,有包含最新或热门新闻等内容
的
侧栏。这些侧栏内容会随着时间
的
推移而变化。有没有办法让
Nutch
抓取
主要故事内容,并避免这样
的
侧栏。
浏览 1
提问于2017-11-08
得票数 0
2
回答
如何通过Java应用程序使用
Apache
Nutch
?
、
我必须使用
apache
nutch
设计一个基于Java/Java EE
的
搜索引擎。我在互联网上搜索过,我找到了许多关于
apache
nutch
安装
的
文章,但没有找到任何关于java程序访问或控制
apache
nutch
进行爬行
的
文章/教程。
浏览 1
提问于2013-06-14
得票数 4
1
回答
Nutch
1.7中
的
org.
apache
.
nutch
.searcher
、
、
我是
nutch
新手。我正在使用
nutch
1.7,
抓取
已经完成。我
的
问题是如何检索
抓取
数据?在
Nutch
1.1中,有一个名为org.
apache
.
nutch
.searcher
的
包提供了这一功能。但是如果我在Java应用程序中导入
nutch
1.1.jar并尝试运行旧代码它给出了这个错误: java.lang.VerifyError: class org.
apache
.
n
浏览 3
提问于2013-10-02
得票数 1
2
回答
如何了解每日索引文档
的
apache
solr状态
、
、
、
、
我使用
的
是
apache
solr 4.10.x。
APache
nutch
被用来
抓取
和索引文档。现在我
的
爬虫正在运行,我想知道
nutch
的
每次迭代或每天有多少文档被索引。
apache
solr为此提供了什么想法或工具?
浏览 2
提问于2015-03-10
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Apache Wicket 8.0.0 正式发布,Java 的 Web 框架
不用编程,几步做简单的数据抓取,web
Apache的权限设置与构建虚拟web主机
最新版Apache Shiro 的Web应用支持指南
2020年需要了解的Web抓取工具有哪些?
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券