腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(1601)
视频
沙龙
2
回答
如何使用Apache抓取特定的网站?
、
i已经在url下面完成并成功地完成了逐步实现:反向链接。 我对这个技术很陌生,
浏览 5
提问于2016-01-12
得票数 0
回答已采纳
1
回答
Nutch
:在Java中调用,而不是命令行?
、
、
是我太胖了,还是真的没有办法通过一些Java代码以编程方式调用Apache
Nutch
?关于如何做到这一点的文档(或指南或教程)在哪里?谷歌让我失望了。所以我真的试过Bing。(另外,如果
Nutch
是一个垃圾,还有没有其他用Java编写的爬虫,在互联网规模上被实际文档证明是可靠的?)
浏览 4
提问于2011-03-24
得票数 8
回答已采纳
1
回答
可以找到或加载主类org.apache.
nutch
.crawl.InjectorJob
、
、
错误:could to find or load main class org.apache.
nutch
.crawl.InjectorJobsrc/bin/
nutch
inject
浏览 4
提问于2015-03-09
得票数 8
2
回答
更新
Nutch
索引的最好方法是什么?
、
、
我已经有一年左右没有关注
Nutch
了,它看起来已经发生了很大的变化。关于重新爬行的文档并不清楚。更新现有
Nutch
索引的最佳方式是什么?
浏览 0
提问于2009-03-12
得票数 1
回答已采纳
1
回答
Apache
Nutch
不公开其API
、
、
我正在尝试使用Apache
Nutch
1.x Rest API。我使用docker镜像来设置
Nutch
和Solr。您可以在中查看演示存储库 Apache
Nutch
使用Solr作为其依赖项。但是,我无法在localhost:8081上访问Apache
Nutch
的API。问题从这里开始。Apache
Nutch
1.X RESTAPI 表明我可以像下面这样启动服务器2. :~$ bin/
nutch
startserver -port <port_number> [
浏览 20
提问于2021-06-12
得票数 3
回答已采纳
1
回答
无法在MongoDb中删除集合中的记录
我使用mongodb执行以下命令产出: local 0.078GBdb.
nutch
.remove
浏览 2
提问于2015-01-28
得票数 2
回答已采纳
1
回答
如何修复纳奇爬虫中已经存在的.locked?
我是
nutch
的初学者。当我使用bin/
nutch
爬行命令重新搜索时,已经存在一个.locked错误。 /home/crawler_user/apache-
nutch
-1.14/bin/
nutch
反向链接/数据/爬虫_user/
nutch
/crawler data/LinkDb /data/crawler_user/
nutch</e
浏览 1
提问于2019-04-23
得票数 0
1
回答
本地Eclipse中的Apache
Nutch
1.9将在Amazon EMR上远程运行
、
、
、
、
我现在正在尝试从我的Eclipse内部运行Apache
Nutch
1.9。我做了Ant构建来创建
Nutch
Eclipse项目,并且我正在成功地在Eclipse工作区中导出。您能指导我如何让我的Apache
Nutch
Eclipse项目在Amazon EMR上运行,而不是在本地运行吗?我不想创建一个JAR并运行它。我想在Eclipse中像往常一样运行它-->。
浏览 2
提问于2015-04-20
得票数 0
1
回答
线程FetcherThread没有更多可用的工作。获取. .com/ failed : java.net.SocketTimeoutException: connect
当给bin/
nutch
获取$s1时,跟随面临以下问题-finishing thread FetcherThreadactiveThreads=1, spinWaiting=0, fetchQueues.totalSize=0, fetchQueues.getQueueCount=1 fetch of http://
nutch
.apache.org
浏览 1
提问于2016-01-13
得票数 1
回答已采纳
1
回答
在windows 7上构建
nutch
2.1时出错,无法从资源org/sonar/ant/antlib.xml加载定义
、
当我试图在我的Windows7机器上构建
nutch
2.1时,我得到了以下错误: [taskdef] Could not; C:\apache-
nutch
-2.1\src\java\org\apache\
nutch
\api\ConfResource.java; C:\apache-<
浏览 2
提问于2013-01-26
得票数 1
2
回答
Nutch
2.3没有在Cassandra中正确存储爬行数据
、
、
我正在运行一个爬行与大多数默认选项与
Nutch
2.3与卡桑德拉后端。有人知道如何用
Nutch
2在Cassandra存储获取/解析的内容吗?一些产出:InjectorJob: starting at 2015[jvlek@orochimaru
nutch
]$ runtime/local&
浏览 5
提问于2015-03-02
得票数 0
回答已采纳
2
回答
Nutch
显示以下错误,该怎么办?
enter code here Exception in thread "main但是当我从终端运行
nutch
时,它显示 用法:
nutch
-core命令 其中COMMAND是以下命令之一: 抓取intranets的一步爬虫 等等…… 请告诉我该怎么做 嘿Tejasp我照你说的做了,我修改了
NUTCH
_HOME=/
nutch
/runtime/l
浏览 0
提问于2012-04-22
得票数 0
1
回答
1.18错误java.lang.NoClassDefFoundError: org/apache/
nutch
/storage/WebPage$Field
、
在编译二进制
nutch
、sources或git Source的所有版本时,我仍然存在相同的错误,使用此常量错误:...[ivy:resolve] impossible/branch-1.18/ivy/ivysettings.xmlbut Total time: 36 seconds at org
浏览 7
提问于2021-05-07
得票数 0
1
回答
无法启动
Nutch
爬行
、
、
、
、
我试图在Ubuntu14.04上部署
Nutch
2.3+ ElasticSearch 1.4 + HBase 0.94,遵循这个。当我尝试开始爬行时,注入urls:我得到:
nutch
-site.xml <property> <name>h
浏览 6
提问于2017-10-12
得票数 0
1
回答
Apache
Nutch
-路径问题
、
、
我正在尝试设置Apache
Nutch
抓取URL,遵循指南。作为一个较老的指南(该指南适用于1.x版,我使用的是2.3版),我对结构进行了必要的更改。但是,当我尝试运行爬网时,我得到以下错误:/usr/local/
nutch<
浏览 0
提问于2015-11-15
得票数 9
1
回答
在hadoop模式下运行
nutch
时,
nutch
gora类不会
、
、
当我尝试的时候我收到以下错误...13
浏览 7
提问于2013-07-09
得票数 0
1
回答
如何调用带位置参数的bash脚本?
、
我有一个脚本,它将使用下面的命令执行,bin/
nutch
-脚本文件爬网、urls、/data/测试/-参数-dir - Option我有下面的代码来执行它,但是它没有传递位置参数,.$pat
浏览 0
提问于2013-04-11
得票数 0
回答已采纳
3
回答
Nutch
+ HBase: hbase版本问题和java异常
、
、
、
、
我正在尝试使用HBase 0.94.14在Debian Squeeze上安装
Nutch
2.2.1。我仔细阅读了
Nutch
1和
Nutch
2教程以及各种文档。我可以毫无问题地构建
Nutch
(它是在Gora 0.3上设置的)./
nutch
inject /root/
nutch
/apache-
nutch
-2.2.1/urls/ In
浏览 3
提问于2014-11-27
得票数 0
1
回答
用
Nutch
2.3配置MongoDB,关于indexerJob的一些错误?
、
我已经成功地配置了MongoDB(5.3.1)和
Nutch
(2.3),当我运行命令"./bin/
nutch
index -all“时,在inject/generate/fetch/fetch/parse/updatedb命令工作后打印出一些错误,错误详细信息如下: at org.apac
浏览 1
提问于2016-03-18
得票数 1
1
回答
Nutch
1.4与Solr 3.5 http.agent.name属性的集成
、
、
、
、
我一直试图用Solr安装
Nutch
,但是得到了下面的异常 Http.agent.name属性中没有列出代理。
浏览 2
提问于2011-12-06
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Nutch重要命令使用说明
手把手教你写网络爬虫3:开源爬虫框架对比
分享7款开源的全文搜索引擎!
机器学习速成
浅谈Python之爬虫
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券