如何将apache nutch抓取的数据检索到我的web

、、

我是apache nutch的新手。我已经爬行了两个网站的数据由apache nutch到solr，并执行查询，并获得在json形式。我会在我的网站上展示那些抓取的数据。我刚刚开始探索apache nutch & solr。这对我的项目非常重要。如果可以的话，请推荐一些教程。提前谢谢。

浏览 19提问于2019-02-02得票数 0

回答已采纳

1回答

apache nutch中的依赖关系问题

、、

尝试将apache nutch与hadoop集成。构建apache-nutch-1.15.job文件后，使用ant将其放在运行时文件夹中，并尝试运行脚本bin/crawl，但得到一些依赖错误。在提取.job文件时，可以看到其中嵌入的所有必需的依赖项。此外，嵌入的依赖项版本也没有问题。at org.apache.nutch.net.URLNormalizers.<init>(URLNormalizers.java:

浏览 30提问于2019-03-28得票数 2

1回答

nutch使用的协议

、、

有人能告诉我nutch使用哪种协议来获取页面吗？我想看看nutch提出了什么样的请求？我也尝试过wireshark，但有太多的数据包，我不能识别哪个是nutch？请帮帮我..

浏览 1提问于2012-06-05得票数 0

1回答

如何将Apache nutch从一步跳到下一步

、、

我使用的是apache Nutch 2.3。我想跳过apache nutch的抓取步骤，跳到下一个步骤，即解析，也就是说，假设我的爬行处于抓取状态，我想要进入解析步骤，这样它就可以提前完成。如何跳过apache nutch从一步到下一步？

浏览 0提问于2015-02-02得票数 1

2回答

apache nutch不抓取网站

、、

我已经安装了用于网络爬行的apache nutch。我想抓取一个有以下robots.txt的网站Disallow: / 有没有办法用apache nutch抓取这个网站？

浏览 1提问于2012-08-07得票数 1

回答已采纳

1回答

通过web爬网创建数据集

、、

我想建立一个由大约2000-3000个网页组成的数据集，从几个种子URL开始。我尝试使用Nutch爬虫，但我无法完成它(无法将获取的‘片段’数据转换为html页面)。对你使用过的其他爬虫或其他工具有什么建议吗？如果web页面包含绝对URL，这将使脱机使用数据集变得不可能，该怎么办？

浏览 2提问于2012-01-22得票数 0

回答已采纳

1回答

错误:找不到或加载主类org.apache.nutch.crawl.InjectorJob

、

我正在跟踪url 来抓取数据..bin/nutch inject crawl/crawldb dmoz/home/admin/Desktop/nutch-solr/apache-nutch-2.3/src/java/org/apache<

浏览 1提问于2016-01-12得票数 1

回答已采纳

2回答

带有Lucene的Apache Nutch

、、、

我们在Lucene中有一个遗留代码，作为新的需求，我们需要使用Apache Nutch进行爬行。这意味着Apache Nutch应该抓取内容，然后现有的Lucene分析器应该生成索引。我的问题是Apache Nutch已经生成了索引，而我无法从中生成内容。我们不想使用Nutch索引。你是建议我使用另一个爬虫，还是仍然可以使用Apache Nutch来达到这个目的？

浏览 0提问于2013-08-22得票数 1

2回答

使用Apache* Nutch抓取图像*

、、、、

我安装了Apache Nutch2.3.1、Solr6.5.1和MongoDB 3.4.7。在我抓取包含许多图像的urls后，在Solr和mongoDB中没有任何图像和视频。我还更改了apache nutch中的regex-urlfilter.txt文件，并删除了与图像相关的后缀(.png、.jpeg、.gift等)。这样做之后，Apache Nutch将不会抓取图像。现在我想知道如何抓取<

浏览 1提问于2017-12-03得票数 2

2回答

格式错误的URL：''，正在跳过(java.net.MalformedURLException

、

我用nutch 1.3抓取网站。当nutch抓取我的站点时，我在日志中看到以下异常：at org.apache.nutch.crawl.Generator$Selector.reduce(Generator.java:247) at org.a

浏览 0提问于2011-12-16得票数 0

1回答

以纯文本格式从nutch获取数据

、、、、

我正在使用apache nutch来抓取网站。当我使用readseg命令读取段中的内容时，我得到的格式如下：有什么方法可以获得纯文本格式的web数据吗？

浏览 0提问于2018-05-10得票数 0

1回答

Apache Nutch -路径问题

、、

我正在尝试设置Apache Nutch抓取URL，遵循指南。作为一个较老的指南(该指南适用于1.x版，我使用的是2.3版)，我对结构进行了必要的更改。但是，当我尝试运行爬网时，我得到以下错误： root@IndiStage:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urlsIn

浏览 0提问于2015-11-15得票数 9

1回答

在EMR上运行Nutch爬网(新手)

、、

我是第一次使用EMR/Hadoop，也是第一次使用Apache Nutch。我正在尝试使用Apache Nutch 2.1来做一些屏幕抓取。我一直在阅读Nutch的设置维基： $NUTCH_HOME

浏览 1提问于2013-06-03得票数 2

1回答

Nutch爬行结果为JSON

、、、

我正在使用apache-nutch-2.1进行爬行。有没有可能以json的形式获取抓取的结果？我编写了一个使用apache-nutch-2.1进行爬行的java程序。如何以JSON格式检索抓取的结果。这可能是一个愚蠢的问题，但当我在谷歌上搜索它时。这与此无关。我如何获得抓取结果的json？

浏览 1提问于2013-06-21得票数 4

2回答

如何使用solr和nutch自动索引数据？

、、、、

我想自动索引一个文档或网站时，它是馈送到apache solr。我们如何才能做到这一点？我见过使用需要通过php脚本调用的CRON作业的示例，但它们的解释不是很清楚。

浏览 1提问于2015-05-28得票数 0

1回答

如何在分布式模式下运行apache nutch

、、

我使用的是Apache Nutch 2.3。我有一个由4个Hadoop (1.2.1)节点组成的小型集群。我正在运行爬虫程序的一个实例。它每天抓取大约30k-50k个页面。我不得不每天抓取更多的页面(假设价值约为100万)。我已经尝试了Nutch的FAQ中的不同问题。但是抓取的文档不能增加。我认为我应该在完全分布式模式下运行Nutch (我期望<

浏览 4提问于2015-09-24得票数 0

1回答

如何限制Apache* Nutch 2.3.1抓取故事内容而不是侧边栏*

、、、、

我得抓取一些新闻网站。我已经在Hadoop 2.7.4和Hbase集群上安装了apache Nutch 2.3.1。我必须通过solr 6.6.1提供搜索。在抓取一些网站后，我观察到Nutch抓取页面中的所有内容。在新闻网站中，有包含最新或热门新闻等内容的侧栏。这些侧栏内容会随着时间的推移而变化。有没有办法让Nutch抓取主要故事内容，并避免这样的侧栏。

浏览 1提问于2017-11-08得票数 0

2回答

如何通过Java应用程序使用Apache* Nutch？*

、

我必须使用apache nutch设计一个基于Java/Java EE的搜索引擎。我在互联网上搜索过，我找到了许多关于apache nutch安装的文章，但没有找到任何关于java程序访问或控制apache nutch进行爬行的文章/教程。

浏览 1提问于2013-06-14得票数 4

1回答

Nutch1.7中的org.apache.nutch.searcher

、、

我是nutch新手。我正在使用nutch 1.7，抓取已经完成。我的问题是如何检索抓取数据？在Nutch1.1中，有一个名为org.apache.nutch.searcher的包提供了这一功能。但是如果我在Java应用程序中导入nutch1.1.jar并尝试运行旧代码它给出了这个错误： java.lang.VerifyError: class org.apache.n

浏览 3提问于2013-10-02得票数 1

2回答

如何了解每日索引文档的apache* solr状态*

、、、、

我使用的是apache solr 4.10.x。APache nutch被用来抓取和索引文档。现在我的爬虫正在运行，我想知道nutch的每次迭代或每天有多少文档被索引。apache solr为此提供了什么想法或工具？

浏览 2提问于2015-03-10得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

apache nutch中的依赖关系问题

nutch使用的协议

如何将Apache nutch从一步跳到下一步

apache nutch不抓取网站

通过web爬网创建数据集

错误:找不到或加载主类org.apache.nutch.crawl.InjectorJob

带有Lucene的Apache Nutch

使用Apache* Nutch抓取图像*

格式错误的URL：''，正在跳过(java.net.MalformedURLException

以纯文本格式从nutch获取数据

Apache Nutch -路径问题

在EMR上运行Nutch爬网(新手)

Nutch爬行结果为JSON

如何使用solr和nutch自动索引数据？

如何在分布式模式下运行apache nutch

如何限制Apache* Nutch 2.3.1抓取故事内容而不是侧边栏*

如何通过Java应用程序使用Apache* Nutch？*

Nutch1.7中的org.apache.nutch.searcher

如何了解每日索引文档的apache* solr状态*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐