腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Nutch
2.0和Hadoop。如何防止conf/
regex-urlfilter.txt
缓存
、
我
在
一台机器上安装了
nutch
2.x和hadoop 1.2.1。2我
在
两个
文件
中
更改了它:./webcrawer/
apache
-
nutch
-2.2.1/conf/
regex-urlfilte
浏览 1
提问于2013-12-13
得票数 1
1
回答
如何将
Apache
Nutch
配置为忽略某些
url
模式
我正在使用
Apache
Nutch
爬行一个网站。
在
爬行时,我希望
nutch
忽略多个
url
模式,如 on..., on..等。我知道如何配置
regex-urlfilter.txt
文件
来抓取特定的
url
。 但我不知道如何配置
nutch
忽略某些
url
模式?
浏览 1
提问于2013-07-10
得票数 0
回答已采纳
2
回答
格式错误的
URL
:'',正在跳过(java.net.MalformedURLException
、
我用
nutch
1.3抓取网站。当
nutch
抓取我的站点时,我
在
日志中看到以下异常:at java.net.
URL
.<init>(
URL
.java:464) at java.net.
URL
.<init>(<em
浏览 0
提问于2011-12-16
得票数 0
1
回答
Apache
NUTCH
,相关爬行
、
、
我正在使用
Apache
NUTCH
2.2.1爬行网站,它为我提供了
在
SOLR上索引的内容。当
NUTCH
获取内容时,有上下文信息,如“联系我们”,“法律声明”或其他一些不相关的信息(通常来自上部菜单,左侧菜单或页面页脚),我不需要索引。
浏览 1
提问于2014-11-20
得票数 0
1
回答
我正在遵循
Nutch
教程,并得到一个"No URLs to fetch“错误
、
、
遵循这里的
Apache
Nutch
教程:+^http://([a-z0-9]*\.)*
nutch
.
apache
.org/<property> <value>My
Nutch
浏览 5
提问于2012-06-22
得票数 0
3
回答
如何重新爬行
nutch
、
我使用的是集成了mysql的
Nutch
2.1。我抓取了2个站点,
Nutch
成功地抓取了它们,并将数据存储到Mysql
中
。我使用Solr 4.0.0进行搜索。甚至我已经从seeds.txt
文件
中
删除了最后一个抓取的Urls,并输入了新的urls。但是
Nutch
没有抓取新的Urls。任何帮助都将是非常有用的。
浏览 1
提问于2012-12-14
得票数 2
1
回答
如何在windows
中
配置
nutch
1.8错误:
nutch
: command not found
、
我正在尝试
在
Windows7
中
配置
nutch
,我已经按照以下步骤操作<configuration>mkdir -p urls触摸seed.txt -->
在
urls/下
浏览 0
提问于2014-04-28
得票数 1
1
回答
配置
Apache
爬虫时出错
、
、
我
在
Linux服务器上运行
Nutch
时遇到了一些问题。我正在尝试爬行在seed.txt
中
配置的
URL
,但我看到了以下错误。爬行器按以下方式触发 我们的自定义
nutch
-default.xml和
nu
浏览 4
提问于2014-08-22
得票数 0
1
回答
线程"main“java.lang.ClassNotFoundException错误中出现异常
、
、
我运行hadoop jar /home/
apache
-
nutch
-2.3.1/runtime/deploy/
apache
-
nutch
-2.3.1.job org.
apache
.
nutch
.crawl.Crawldir crawl -depth 3 -topN 5,但得到以下错误: Exception in thread "main" java.lang.ClassNotFoundException: org.
a
浏览 29
提问于2019-04-25
得票数 0
回答已采纳
1
回答
Nutch
不爬行整个网站
、
、
我使用的是
nutch
2.3.1 问题是,
nutch
只是
在
爬行第一个
URL
(seeds.txt中指定的
URL
)。数据只是来自第一个
URL
/页面的HTML。我不能让
nutch
去爬行其他生成的ur
浏览 2
提问于2016-03-01
得票数 2
2
回答
使用
Apache
Nutch
抓取图像
、
、
、
、
我安装了
Apache
Nutch
2.3.1、Solr6.5.1和MongoDB 3.4.7。
在
我抓取包含许多图像的urls后,
在
Solr和mongoDB
中
没有任何图像和视频。我还更改了
apache
nutch
中
的
regex-urlfilter.txt
文件
,并删除了与图像相关的后缀(.png、.jpeg、.gift等)。在那之后,我更改了后缀-urlfilter.txt
文件
和注释jpeg,gif,pn
浏览 1
提问于2017-12-03
得票数 2
1
回答
导致爬网进程终止的
Nutch
MalformedURLException
、
、
/bin/crawl /largeSeeds 1 http://localhost:8983/solr/ddcd 416/01/17 02:10:18 INFO plugin.PluginRepository:
Nutch
URL
Filter (org.
apache
.
nutch
.net.URLFil
浏览 0
提问于2016-01-18
得票数 0
1
回答
Nutch
/Hadoop: regex-Normize.xml和
regex-urlfilter.txt
找不到错误,即使它们存在
、
、
我目前被困在nullpointerexception
中
,我认为这是由于找不到
regex-urlfilter.txt
和regex-Normize.xml所致。-
regex-urlfilter.txt
not found这两个
文件
都存在于\workspace\
apache
-
nutch
-1.16\con
浏览 13
提问于2019-11-08
得票数 0
回答已采纳
2
回答
纳奇:工作失败了
、
、
、
at org.
apache
.hadoop.mapred.JobClient.runJob(JobClient.java:1357) at org.
apache
.
nutch
.crawl.Injector.run(Injector.java:316) at org.
apache
.hadoop.util.ToolRunner.run下面的详细信息来自
浏览 3
提问于2014-04-02
得票数 0
回答已采纳
1
回答
Nutch
-为什么我的网址排除不排除这些网址?
、
、
、
我还有另一个
Apache
Nutch
v1.5问题。因此,
在
通过
Nutch
爬行和索引我们的网站到Solr时,我们需要能够排除属于特定路径的任何内容。假设我们有自己的网站:http://oursite.com/,我们有一个不想在http://oursite.com/private/上建立索引的路径 我
在
seed.txt
文件
中有http://oursite.com/,
在
<em
浏览 4
提问于2013-07-20
得票数 0
回答已采纳
2
回答
有没有办法用不同的配置
文件
运行
NUTCH
?
、
、
我想知道是否有可能用不同的配置
文件
集运行相同的
NUTCH
实例?我
在
参数列表中看不到任何允许这种事情的选项。谢谢。
浏览 0
提问于2012-03-13
得票数 3
回答已采纳
1
回答
Apache
Nutch
url
在
regex-urlfilter.txt
文件
中
、
、
我是个爬虫新手,特别是
apache
nutch
。
apache
nutch
的配置非常复杂。我已经通过
apache
nutch
研究了很多,我找到了
regex-urlfilter.txt
文件
,在这个
文件
中
,你必须指出你想要抓取哪些页面,并限制你的抓取。现在,为了只抓取这个网站并限制我的抓取,我知道我现在必须编辑我的
regex-urlfilter.txt
文件
,就像这样的+^https:
浏览 29
提问于2019-10-07
得票数 0
1
回答
分离
Nutch
regex
文件
以爬行和索引到多个Solr核
、
、
我配置了Solr并以这样的方式启动了它:然后我配置并启动了两次
Nutch
,每个源urls
文件
夹和索引目标(http://localhost:8983/solr/core0 -depth 10 -topN 100000 结果是完美的,但是为了过滤掉不想要的
URL
模式,我必须在
regex-urlfilter.txt
由于这两个爬行会话的regex设置不同,在运行第二个爬行之前,我必须编辑
浏览 2
提问于2013-05-23
得票数 0
回答已采纳
1
回答
我什么时候使用solrindex [-filter]和[-normalize]?
在
Nutch
wiki
中
,它建议使用以下内容:当
Nutch
有大量的过滤器和标准化配置
文件
时?automaton-urlfilter.txt
regex-urlfilte
浏览 0
提问于2013-08-16
得票数 0
1
回答
Nutch
和solr索引黑名单域
、
、
我正在使用
nutch
1.9和solr 4.10 .I,希望避免
在
nutch
和solr中使用域名www.aaa.com gettign index
在
nutch
configuration conf/domainblacklist-urlfilter.txt
中
,我添加了"www.aaa.com“。
在
conf/domain-urlfilter.txt
中
,我
在
我添加的
regex-urlfilter.t
浏览 0
提问于2016-02-17
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
分享7款开源的全文搜索引擎!
手把手教你写网络爬虫3:开源爬虫框架对比
什么是大数据?你需要知道的………
最佳免费网络爬虫工具(4)
大数据Hadoop生态系统介绍
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券