腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在不指定
深度
的情况下抓取整个网站的
nutch
配置
、
我使用
Nutch
-1.8
爬行
网站和solr索引。我需要在没有指定
深度
参数的情况下
爬行
整个网站直到最后一个子链接(-depth)。语法:bin/
nutch
crawl <urlDir> [-solr <solrURL>] [-dir d] [-threads n] [-depthi] [-topN N] 在上面的命令中,我不想指定<em
浏览 2
提问于2016-01-25
得票数 3
回答已采纳
1
回答
如何通过指定
深度
来抓取网站
、
、
我用的是
nutch
2.x。因此,我试图使用
nutch
命令和
深度
选项作为执行此命令后,收到如下消息所以当我在这方面失败的时候,我试着用
nutch
爬行
作为错误,如 命令
爬行
是不推荐的,请使用bin/
爬行
代
浏览 1
提问于2014-08-01
得票数 3
回答已采纳
1
回答
给出
深度
=‘N’的
Nutch
爬行
与
深度
=‘1’的循环N次
爬行
的区别
、
我在循环中运行
爬行
(‘N=depth’次数),给depth=1.I一些urls,当我在循环中
爬行
深度
为1时,N次与
爬行
给
深度
N。请查找以下伪码:} 当我在循环中
爬行
的次数是
深度
的时候,我得到了一些丢失的urls (db不取)。我已经在独立的
Nutch
上尝试过了,我运行的
深度
为3
浏览 0
提问于2012-07-12
得票数 0
1
回答
在评分
深度
过滤器中更新Apache-
Nutch
Crawler的最大
深度
不起作用。
、
、
我已经
设置
了Apache 1.18来
爬行
网络。对于排名,我使用评分
深度
过滤器。默认情况下,最大
深度
长度
设置
为1000 (在每个页面中
爬行
)。现在,我必须更新这个值(例如增加)。为此,我已更新了纳奇的下列财产 <name>scoring.depth.max</name></property> 现在,
Nutch
浏览 6
提问于2022-08-02
得票数 1
1
回答
Apache-
Nutch
Crawler的
设置
深度
、
如何为
设置
深度
?bin/
nutch
crawl seed.txt -dir crawler/stat -depth 1 -topN 5 我试过用垃圾桶/
爬行
代替
爬行
。
浏览 0
提问于2017-12-26
得票数 2
1
回答
IOException IOException #Crawl.run() -> #JobClient.runJob()
、
、
、
我和
nutch
是新来的,所以请容忍我。在我的一个测试
爬行
过程中,我遇到了一个IOException。我使用的是
Nutch
1.6和Hadoop0.20.2(在
设置
文件访问权限时选择此版本是为了windows兼容)。我的爬虫代码来自这个网站:solrUrl未
设置
,索引将被跳过.
爬行
开始:爬线程=1
深度</e
浏览 1
提问于2013-03-31
得票数 0
1
回答
深度
、topn对
nutch
爬行
的影响
我一直想知道
深度
和顶端对
nutch
爬行
的影响是什么?例如,假设
深度
为100,topn为10000可确保完全
爬行
,将
深度
更改为1000是否会影响
爬行
所需的时间?所以,要抓取一个不熟悉的网站,可以给出一个任意大的
深度
和topn吗?阿南斯。
浏览 0
提问于2012-07-03
得票数 2
回答已采纳
1
回答
关于使用
Nutch
内容限制的建议
、
、
我正在使用
Nutch
2.1
爬行
整个域(例如,company.com)。我曾经遇到过这样的问题:由于Apache中
设置
的内容限制,我没有得到我想要的所有链接。为了解决这个问题,我更改了
nutch
-site.xml,使内容限制看起来如下: <name>http.content.limit</name>at org.apache.
nutch
.parse
浏览 2
提问于2016-01-22
得票数 0
回答已采纳
1
回答
Apache修改要
爬行
的链接队列
、
、
根据我所读到的,-topN参数决定了在
深度
/页面中有多少最高的得分链接将排队。实际上,网上的资源让我感到困惑,这就引出了我的第一个问题: 这些topN链接是否在优先级中与来自其他页面/
深度
的其他排队的topN链接排队?例如,对于种子URL中的2个
爬行
页面,topN = 2,1个种子URL,是否将从这个
深度
获取的链接聚合起来,然后排序?还是只有页面内的链接被排序?不过,这假定topN为每页。我希望得分最高的链接首先被<
浏览 1
提问于2015-11-12
得票数 1
2
回答
在
Nutch
每个站点
爬行
一定
深度
、
、
我正在尝试使用
Nutch
V1.12
爬行
大量的网站,而我没有问题的
爬行
网站,我无法控制我想要的
爬行
。问题主要在于,似乎不可能进行
爬行
,从它到达的每一个新主机计算
深度
。据我所知,
爬行
脚本中的一个回合被认为是
爬行
的
深度
。但这意味着在
爬行
早期发现的站点比后来发现的站点要多。 是否有办法实现每个站点
爬行
深度
的功能?
浏览 4
提问于2017-03-29
得票数 1
回答已采纳
3
回答
如何防止apache
nutch
爬行
外部链接?
、
、
、
、
我只想爬到
nutch
上的特定域。为此,我将db.ignore.external.links
设置
为true,正如在中所说的那样我通过运行200
深度
的
爬行
脚本来获得结果。
浏览 0
提问于2016-04-05
得票数 0
1
回答
有没有办法在
Nutch
crawl中记录“忽略”的urls列表?
、
、
、
我正在使用
Nutch
抓取种子文件中指定的topN列表,
深度
为100,URLS为10,000,以确保完全抓取。此外,我还尝试使用regex-urlfilter 忽略路径中有重复字符串的urls 然而,我很想知道哪些urls在
爬行
过程中被忽略了。有没有什么办法,我可以记录的urls列表“忽略”,而
Nutch
爬行
?
浏览 3
提问于2013-03-17
得票数 0
回答已采纳
1
回答
Solr 5.0和
Nutch
1.10
、
我在windows server 2008 R2上使用solr5.0,
nutch
1.10和cygwin。我发出的命令如下:据我所知,2是
爬行
的轮数。此外,它不会在更深的
深度
爬行
。当我发出这个命令将数据传递给Solr时:然后执行搜索,那么我总共只得到了20个u
浏览 0
提问于2015-06-03
得票数 0
1
回答
多个solr芯的
nutch
配置
、
、
我在Linux上使用
Nutch
1.9和Solr 4.10。我需要抓取和索引的大网站的内容,并希望这样做使用单独的Solr核心。下面是
Nutch
配置作为cronjob的一部分..。 .这是可行的,但我希望为每个核心有单独的regex-urlfilter.txt文件,并且
Nutch
应该检测到它。请让我知道我如何做到这一点。如果在单个
Nutch
中不可能实现上述操作,是否应该为每个Solr核心
设置
单独的
Nutch
实例?
浏览 1
提问于2016-01-22
得票数 0
2
回答
Nutch
:获取插件中的当前
爬行
深度
我想为
nutch
编写自己的HTML解析器插件。我正在通过生成只落在特定xpath中的外部链接来进行有针对性的
爬行
。在我的用例中,我希望根据当前
爬行
的
深度
从html页面获取不同的数据。所以我需要知道我正在解析的每个内容在HtmlParser插件中的当前
深度
。 使用
Nutch
可以吗?我发现CrawlDatum没有crawl_depth信息。我在考虑将信息映射到另一种数据结构中。
浏览 1
提问于2010-08-20
得票数 0
回答已采纳
1
回答
nutch
爬行
被卡在旋转等待或活动。如何减少取货周期?
、
、
我正在使用
Nutch
2.1和
爬行
一个网站。问题是,
爬行
器一直显示抓取url、旋量/活动,而且由于抓取花费了大量时间,所以到mysql的连接会超时。在
nutch
中是否有这样的
设置
:只获取100或500个urls,然后解析并存储到mysql,然后再获取下一个100或500个urls?org.apache.hadoop.mapreduce.TaskInputOutputContext.write(TaskInputOutputContext.java:80) at org.apache.<em
浏览 5
提问于2013-01-02
得票数 1
1
回答
使用
nutch
crawl,如果我为-topN和-depth使用较小的值,它仍然会
爬行
所有相同的页面吗?
我正在运行
Nutch
1.4/Solr 4.10来索引许多站点。我的爬虫包括一些带有数百个链接的种子页面。我目前运行的是使用这些
设置
,完成抓取需要5-7个小时。我希望"
nutch
crawl“的每个单独迭代花费较少的时间,但我需要确保所有页面最终都被
爬行
。
浏览 0
提问于2016-10-11
得票数 0
1
回答
使用
Nutch
1.9获得清晰的内容(无标记)
、
、
使用
Nutch
1.9,我如何获取
爬行
页面的清晰内容(没有html标记),并以可读的形式保存.content。Solr有办法做到这一点吗?或者没有它也可以做到,以及如何做到?还有一个子问题,如何使用bin/crawl脚本控制
爬行
深度
?在bin/
nutch
crawl命令中有一个那个(和topN)的选项,但现在它被弃用了,不能执行。
浏览 0
提问于2014-10-28
得票数 0
1
回答
多层网络蜘蛛与正则表达式匹配?
、
、
爬行
器将访问网站列表,找到与正则表达式模式列表匹配的链接,访问这些匹配的链接,并重复操作,直到配置的
深度
级别。 我正要在php上编写这个代码,但我不太擅长php上的线程,我需要这个应用程序的线程。
浏览 4
提问于2011-10-13
得票数 1
回答已采纳
1
回答
Nutch
-如何在小块地
爬行
?
、
、
我不能让
Nutch
用小补丁帮我
爬行
。我通过参数bin/
nutch
爬行
命令-depth 7和-topN 10000启动它。而且它永远不会结束。只有当我的硬盘是空的时候才会结束。我需要做的是: 循环步骤3,n次。在脚本的末尾,我有和我一样的索引,当我开始
爬行
的时候。但是,我需要继续
爬行
。
浏览 0
提问于2010-03-29
得票数 4
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在Python程序中设置函数最大递归深度
塑料钢模具厂加工,CNC刀具和加工深度参数设置
微信不显示来消息怎么设置:深度解析与隐私保护考量
微信拍一拍新玩法:烟花效果的设置方法与深度解析
什么是大数据?你需要知道的………
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券