Nutch作为具有自定义处理管道的备用爬行器

、、

我想使用Apache Nutch作为一个蜘蛛，它只获取给定的网址列表(没有爬行)。urls将存储在Redis中，我希望Nutch不断地将它们从列表中弹出并获取html。爬虫需要处于待机模式-它总是等待新的urls进入Redis，直到用户决定停止作业。此外，我想将我自己的处理管道应用于提取的html文件(不仅仅是文本提取)。有没有可能用Nutch？

浏览 20提问于2019-03-22得票数 0

1回答

将Nutch web爬行功能集成到Java应用程序中

、、

我会在我的Java应用程序中使用Apache从一个或多个网站抓取网页。基本上，为了处理页面内容(文本等)，我需要为web爬虫找到的每个网页调用我的Java应用程序的方法。如何做到这一点？

浏览 7提问于2016-06-01得票数 2

回答已采纳

1回答

确保Nutch爬行了特定域的所有页面。

我正在使用Nutch收集来自单个域的所有数据。我如何确保Nutch爬行了给定域下的每个页面？

浏览 4提问于2020-02-26得票数 0

回答已采纳

4回答

Java/Scala中的Web抓取

、、、、

我需要提取一个长长的URL列表的关键字、标题和描述(最初为每天250,000个URL，最终为每天15000,000个URL)。 Nutch -如果我想在我的代码中使用它，我不知道

浏览 10提问于2016-02-08得票数 2

5回答

Nutch的替代网络爬虫

、、

我正在尝试建立一个专门的搜索引擎网站，索引有限数量的网站。我想出的解决方案是：现在提出问题：对这个网站的漏洞有什么建设性的批评吗？有没有一个既好又简

浏览 69提问于2010-11-25得票数 20

1回答

Apache -只在现有表中爬行新注入的URL

、、

我得通过Nutch爬几个URL。为此，我每次都要提供种子网址。因此，每一次都会在同一张表中注射。现在，随着时间的推移，数据库将增加，在生成阶段，它将查找所有需要时间的URL。是否有方法指示Nutch只爬行新注入的URL，而不查看表(对于旧URL)。或者有什么更好的方法。

浏览 0提问于2020-05-18得票数 0

回答已采纳

1回答

分别使用Nutch中的每个插件

、、

我正在使用提取器插件与Nutch-1.15。该插件使用分析过的数据。是否有一种方法可以将单个插件单独用于分析过的数据？

浏览 0提问于2018-01-24得票数 0

1回答

如何从文本中提取所有的地址信息？

、、、、

使用Nutch，我爬行了URL，抓取数据并将输出转储为文本。现在我有了文本数据，我只想从中提取/删除地址信息。我该怎么做？示例文本的Pastebin url： Recno:: 0 sb.append(text.substring(start, e

浏览 0提问于2015-09-29得票数 2

1回答

配置Apache爬虫时出错

、、

我在Linux服务器上运行Nutch时遇到了一些问题。我正在尝试爬行在seed.txt中配置的URL，但我看到了以下错误。爬行器按以下方式触发我们的自定义nutch-

浏览 4提问于2014-08-22得票数 0

1回答

Nutch FetchData作业太慢了

、、、、

我正在使用Apache以编程方式在EMR集群中爬行大约7000个带有6个周期的URL(在爬行过程中很少有自定义映射--减少作业)。版本是: nutch=v1.15 hadoop=2.7.3，我正在使用20个EC2 m4的Amazon集群上运行它。爬行的代码是： throws IOException, InterruptedExceptionFa

浏览 0提问于2019-08-22得票数 1

回答已采纳

2回答

向NutchDocument动态添加字段

、、

我使用Nutch 1.12和弹性搜索，我想动态地添加一个字段到NutchDocument。public class CustomIndexFilter implements IndexingFilter { return doc;

浏览 2提问于2016-11-23得票数 2

回答已采纳

1回答

Solr是否有必要为Nutch的爬网数据建立索引？

、、

我发现Nutch 1.4只包含一个索引器/solrindex。Solr是Nutch索引爬行数据的唯一方法吗？如果没有，还有其他方法吗？我也想知道为什么Nutch 1.4使用Solr来索引数据。

浏览 0提问于2012-04-23得票数 1

回答已采纳

1回答

刮除管道性能

、

我目前正在使用Scrapy作为一个个人项目，但在性能方面挣扎。问题是，这使我的爬行运行了110秒，而不是当我不使用管道时运行30秒。我想知道如何优化我<em

浏览 3提问于2019-11-05得票数 0

1回答

需要一个自定义类的示例，该类的实例被提供给sklearn管道/ make_pipeline以便与GridSearchCV一起使用

、、、、

根据sklearn.pipeline.Pipeline文档，实例为管道元素的类应该实现fit()和transform()。我成功地创建了一个具有这些方法的自定义类，并且能够很好地处理单个管道。现在，我想使用管道对象作为GridSearchCV的估计器参数。后者要求自定义类具有set_params()方法，因为我希望搜索自定义实例参数的</

浏览 0提问于2022-05-16得票数 0

1回答

从Nutch* 1.7爬网中排除不带'www‘的urls*

、、

我目前正在使用Nutch 1.7抓取我的域名。我的问题是URL被索引为www和non-www。具体地说，在启动对Solr 4.5的爬行和索引，然后使用AJAX Solr在前端验证结果之后，搜索结果页面将列出同时是'www‘和'’urls的结果/页面，例如：mywebsite.comwww.mywebsite.com/page1.html我的<

浏览 2提问于2013-11-02得票数 1

1回答

Apache Nutch工作实例的最大数量

、

一个主节点可以同时运行的Apache Nutch crawler实例的最大数量是多少？

浏览 0提问于2015-12-17得票数 7

1回答

根据通过python脚本传递给爬行器的URL列表运行scrapy spider

、、、

我从数据库中获得了1000个URL，以及2个字段，如name和id[{'name':'name1','id':'id1,'link':'myurl1'},] 现在我想创建一

浏览 0提问于2015-11-09得票数 0

3回答

抓取:爬行多个蜘蛛，共享相同的项、管道和设置，但具有不同的输出。

、、、

我的scrapy项目包含多重爬行器(Spider1、Spider2、等)，它爬行不同的网站，并将每个网站的内容保存在不同的JSON文件中(output1.json、output2.json等)。在不同网站上收集的项目具有相同的结构，因此蜘蛛使用相同的项、管道和设置类。输出由管道中的自定义JSON类生成。当我单独运行这些蜘蛛时，

浏览 2提问于2017-07-25得票数 3

回答已采纳

1回答

在scrapy中转换最终输出？

、

我有一个成功解析项和子项的scrapy过程，但是我看不到是否有一个最终的钩子，它允许我在所有内容都被解析之后，但在格式化为输出之前转换最终的数据结果。我的蜘蛛正在做这样的事情： for partsubpart), }

浏览 2提问于2021-01-11得票数 0

4回答

使用Apache进行分布式Web爬行--这有可能吗？

、、

当我参加一次关于网络挖掘的采访时，我问了一个有趣的问题。问题是，是否有可能使用Apache爬行这些网站？我猜想这是可能的，因为它支持星火的分布式处理能力。面试结束后，我寻找了这个，但没有找到任何有趣的答案。这跟火花有可能吗？

浏览 2提问于2015-04-29得票数 17

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

将Nutch web爬行功能集成到Java应用程序中

确保Nutch爬行了特定域的所有页面。

Java/Scala中的Web抓取

Nutch的替代网络爬虫

Apache -只在现有表中爬行新注入的URL

分别使用Nutch中的每个插件

如何从文本中提取所有的地址信息？

配置Apache爬虫时出错

Nutch FetchData作业太慢了

向NutchDocument动态添加字段

Solr是否有必要为Nutch的爬网数据建立索引？

刮除管道性能

需要一个自定义类的示例，该类的实例被提供给sklearn管道/ make_pipeline以便与GridSearchCV一起使用

从Nutch* 1.7爬网中排除不带'www‘的urls*

Apache Nutch工作实例的最大数量

根据通过python脚本传递给爬行器的URL列表运行scrapy spider

抓取:爬行多个蜘蛛，共享相同的项、管道和设置，但具有不同的输出。

在scrapy中转换最终输出？

使用Apache进行分布式Web爬行--这有可能吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐