nutch js url_nutch_如何为apache nutch设置Regex网站URL？ - 腾讯云开发者社区

、、

我有一个关于ElasticSearch和Apache集成的问题。我试着遵循这里列出的Nutch+ES指南和具体来说，我能够设置HDFS+HBase+Nutch并爬行一个页面列表(我可以确认数据确实被爬行并存储在HBase的网页表中)。我也可以让ElasticSearch和Kibana没有问题地工作(成功地创建了一个新的索引并插入了一些记录，确认了使用Kibana)。然而，我无法让他们的组合工作。基本上，我在对Nutch做了以下命令之后： nutch inject <file_containing_url> nutch generate -topN 1 nutch f

浏览 6提问于2016-02-29得票数 1

1回答

我怎样才能找到nutch如何到达链接/url？

、、

我们正在做的Nutch爬行有一个奇怪的情况，在某个时候，Nutch到达一个错误的网页，实际上，服务器应该发送404。不管出于什么原因服务器不是。当Nutch点击这个“坏”URL时，页面就会根据错误生成所有相对路径。因此，如果根页面为""，该页面将有数百个链接，用于"example.com/bad/data/1“和”example.com/bad/日历/2012“和”example.com/bad/data/1/日历/2012“。因此，纳奇将永远爬行。我想追溯任何网页错误的第一次链接到这个“坏”页面。使用bin/nutch readlinkdb或bin/nutch

浏览 1提问于2014-08-28得票数 1

回答已采纳

1回答

Nutch不爬行整个网站

、、

我使用的是nutch 2.3.1 我预编好命令来爬行一个站点： ./nutch注入../urls/核.urls ./nutch生成-topN 2500 ./nutch提取-all 问题是，nutch只是在爬行第一个URL (seeds.txt中指定的URL)。数据只是来自第一个URL/页面的HTML。所有由generate命令累积的其他URLS实际上都不是爬行的。我不能让nutch去爬行其他生成的urls.我也不能让nutch抓取整个网站。，我需要使用哪些选项来爬行整个站点？有人有什么见解或建议吗？非常感谢你的帮助

浏览 2提问于2016-03-01得票数 2

1回答

Nutch获取已经获取的URL

我试着用Nutch抓取网站。我使用命令：向DB注入URL 生成/获取/解析/更新的循环b 我注意到Nutch在每个循环迭代中已经获取了什么URL。我已经做了以下配置：添加过滤器到regex-urlfilter.txt 向nutch-site.xml添加了配置： http.agent.name集值MyNutchSpider http.robots.agents集值为MyNutchSpider file.content.limit -1 http.content.limit -1 ftp.content.limit -1 fetcher.s

浏览 1提问于2015-01-15得票数 0

1回答

Nutch bin/爬行脚本失败-手动步骤工作良好

、、、

我正在尝试运行Nutch1.6“bin/ script”中提供的脚本，它完成了以下所有手动步骤，这些步骤都是运行和爬行站点所必需的。当我手动运行这些步骤时，所有操作都很好，并且我的页面按预期进行了索引(尽管只有一个页面，但会查看此)。创建的文本文件中包含一个URL @种籽/urls.txt bin/nutch inject crawl_test/crawldb seeds/ bin/nutch generate crawl_test/crawldb crawl_test/segments export SEGMENT=crawl_test/segments/`ls -tr crawl_

浏览 0提问于2013-04-12得票数 0

1回答

Nutch与crwaling网站的问题，其中url仅在参数传递的术语上有所不同

我正在使用Nutch抓取网站，奇怪的是，对于我的一个网站用户，Nutch抓取只返回两个url，主页url ()和另一个。我的webiste上的urls基本上是这种格式也就是说，url仅在附加到url的参数方面不同(部分"?“对所有urls都是通用的) Nutch不能抓取这样的网站吗？我应该做什么Nutch设置才能抓取这样的网站？

浏览 0提问于2009-11-10得票数 0

回答已采纳

3回答

为什么Nutch (v2.3)只抓取种子URL，而不是抓取整个网站？

、、

我试图抓取一个完整的，特定的网站(忽略外部链接)使用Nutch2.3与HBase 0.94.14。我遵循了关于如何设置和使用这些工具的一步一步的教程(可以找到)。然而，我还没能实现我的目标。与其抓取我在seed.txt文件中所写的URL的整个网站，Nutch只在第一轮中检索该基本URL。我需要运行更多的爬行，以便Nutch检索更多的URL。问题是我不知道我需要多少轮才能爬行整个网站，所以我需要一种方法告诉Nutch“一直爬行直到整个网站被爬行”(换句话说，“在一轮中爬行整个网站”)。以下是我迄今所遵循的关键步骤和设置：将基URL放在seed.txt文件中。 http://www.w

浏览 8提问于2017-06-26得票数 0

回答已采纳

1回答

Solr索引后的Nutch爬行失败，报告“索引: java.io.IOException:作业失败！”

、、

我在EC2实例上将Nutch1.13与Solr 6.5.1集成在一起。我使用下面的cp命令将schema.xml复制到Solr，我在nutch_home/conf文件夹中的nutch-site.xml中将localhost作为elatic.host。 cp /usr/local/apache-nutch-1.13/conf/schema.xml /usr/local/apache-nutch-1.13/solr-6.5.1/server/solr/nutch/conf/ 而且，每次创建托管模式都是因为它是solr 6，直到索引正常为止。我试过的命令是 ec2-user@ip-172-

浏览 0提问于2017-05-19得票数 1

1回答

如何将Apache Nutch配置为忽略某些url模式

我正在使用Apache Nutch爬行一个网站。在爬行时，我希望nutch忽略多个url模式，如 on...， on..等。我知道如何配置regex-urlfilter.txt文件来抓取特定的url。但我不知道如何配置nutch忽略某些url模式？

浏览 1提问于2013-07-10得票数 0

回答已采纳

1回答

Nutch:在一定深度内抓取每个URL

我的问题是从某个种子列表开始抓取每个页面和每个文档。我已经安装了nutch，并使其使用以下命令运行： bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5 我预计nutch进程会抓取大约100个url，但它说只找到了11个文档。因此，我尝试使用以下命令运行nutch： bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 4 它找到了23个文档。我从测试种子开始运行进程为什么nutch会有这种行为？如何设置nutc

浏览 1提问于2012-07-16得票数 3

回答已采纳

1回答

使用nutch为我的本地HTML文件编制索引

、、

我的硬盘上有很多HTML文件，我想用Nutch来索引它们，但据我所知，nutch只获取URL并索引它们和链接在这些URL中的页面。有人知道如何使用nutch来索引我的本地文件吗？

浏览 4提问于2011-08-20得票数 1

回答已采纳

1回答

错误:找不到或加载主类org.apache.nutch.crawl.InjectorJob

、

我正在跟踪url 来抓取数据.. 当我到达下面的命令时，我将面临错误 bin/nutch inject crawl/crawldb dmoz 我的java路径设置好了..&我的路径中也有类DmozParser /home/admin/Desktop/nutch-solr/apache-nutch-2.3/src/java/org/apache/nutch

浏览 1提问于2016-01-12得票数 1

回答已采纳

1回答

外部链接不会被爬行

我正在为nutch开发一个自定义解析插件，并遇到了一个问题。我想在种子url的特定区域爬行所有的url。但是nutch忽略了外部链接，这些链接没有被爬行。例如:种子网址- https://in.news.yahoo.com -它包含timesofindia.com，thehindu.com等网站的链接，但是这些链接没有被爬行。我的nutch-site.xml包含:- <property> <name>db.ignore.external.links</name> <value>false</value> </prop

浏览 2提问于2016-09-20得票数 2

回答已采纳

1回答

Apache Nutch -路径问题

、、

我正在尝试设置Apache Nutch抓取URL，遵循指南。作为一个较老的指南(该指南适用于1.x版，我使用的是2.3版)，我对结构进行了必要的更改。但是，当我尝试运行爬网时，我得到以下错误： root@IndiStage:~# /usr/local/nutch/framework/apache-nutch-2.3/src/bin/crawl urls FirstCrawl 2 No SOLRURL specified. Skipping indexing. Injecting seed URLs /usr/local/nutch/framework/apache-nutch-2.3/src/

浏览 0提问于2015-11-15得票数 9

1回答

nutch无法成功解析内容

、、

我尝试使用nutch 1.4进行爬行，但在解析时遇到错误，这是日志文件： 2012-01-09 09:12:02,696 INFO parse.ParseSegment - ParseSegment: starting at 2012-01-09 09:12:02 2012-01-09 09:12:02,697 INFO parse.ParseSegment - ParseSegment: segment: crawl/segments/20120109091153 2012-01-09 09:12:03,416 WARN parse.ParseUtil - Unab

浏览 0提问于2012-01-09得票数 0

2回答

Apache步骤解释

、

我遵循了以下文章：并设置了apache +solr。但我想澄清一下，我是否理解关于nutch台阶工作的正确性。 1)。注入:在这个部分中，apache从给定的seed.txt中读取url列表，将url与regex-urlfiler regex进行比较，并使用支持的url更新爬行数据库。 2)。Generate: bin/nutch生成爬行/ crawldb爬行/段Nutch从crawldb获取URL，并创建已准备好要获取的URL的获取列表。它接受诸如-topN和时间差等输入，然后在段下创建当前时间的目录。我相信，在最初的两个步骤中，没有与互联网的互动。一切都发生在当地。问:取货清单保存在哪

浏览 3提问于2015-04-12得票数 6

回答已采纳

2回答

格式错误的URL：''，正在跳过(java.net.MalformedURLException

、

我用nutch 1.3抓取网站。当nutch抓取我的站点时，我在日志中看到以下异常： Malformed URL: '', skipping (java.net.MalformedURLException: no protocol: at java.net.URL.<init>(URL.java:567) at java.net.URL.<init>(URL.java:464) at java.net.URL.<init>(URL.java:413) at org.apache.nutch.crawl.Generator$Selector.

浏览 0提问于2011-12-16得票数 0

1回答

使用nutch inject对web urls内容进行索引

、、

我以递归方式爬行了一个网站，收集了it.Now中提到的所有链接/子链接，即url，我希望它能将所有html内容转储到elasticsearch。我通过nutch 找到了这样做的方法： 2. Inject the URLs into the Crawldb nutch inject seed/urls.txt 3. Generate URLs to fetch bin/nutch generate -topN 40 4. Fetch the pages bin/nutch fetch -all 在这样做的时候，我得到了下面的错误： $ ./nutch i

浏览 0提问于2017-03-10得票数 0

0回答

Apache Nutch:获取URL列表，而不是来自整个web的内容

我是apache Nutch的新手。我的目标是从一个种子URL列表开始，使用Nutch在一个大小限制内(比如不超过100万或少于1TB的数据)提取尽可能多的URL(和子URL)。我不需要页面的内容，我只需要保存URL。有没有办法做到这一点？Nutch是正确的工具吗？

浏览 8提问于2017-11-29得票数 0

回答已采纳

2回答

将数据发送到Solr时Nutch作业失败

、、

我一直在尝试各种方法，但都没有效果。我的Nutch/Solr配置基于以下内容：现在我已经启动并运行了Nutch和Solr，我想使用Solr来索引爬行数据。Nutch成功地抓取了我指定的域，但是当我运行命令将该数据传递给Solr时，Nutch失败了。下面是命令： bin/nutch solrindex http://solr:8181/solr/ crawl/crawldb crawl/linkdb crawl/segments/* 下面是输出： Indexer: starting at 2013-09-12 10:34:43 Indexer: deleting gone documents

浏览 2提问于2013-09-12得票数 2

1回答

Hodoop + Nutch 1.15 + Solr Cloud 7.3.1索引无结果

、、、、

他，我有一个基于Hadoop的集群。我成功地使用了Nutch 1.15，并抓取了一些urls。我已经安装了Solr 7.3.1，并且我喜欢使用Cloud one，所以当我使用以下命令运行SOlr时： ./solr-7.3.1/bin/solr start -c 我还在nutch-site.xml中设置了一些solr变量： <property> <name>solr.serv

浏览 0提问于2018-10-07得票数 0

1回答

通过Nutch Rest API添加URL过滤器正则表达式

、、、

我正在使用Nutch版本1.12来抓取url的。我只需要抓取一些特定的url。我知道url可以使用regex-urlfilter文件中的条目进行过滤。我想知道在Nutch REST API中是否有任何选项可以将动态url正则表达式添加到这些文件中，就像nutch-site.xml中的属性一样。

浏览 8提问于2019-01-24得票数 1

1回答

如何在爬行时使Apache Nutch索引

我开始使用Apache (v1.5.1)对某个特定域下的所有网站进行索引。在我的领域中有大量的网站(按百万的顺序)，我需要一步一步地索引它们，而不是等待整个过程的结束。我在nutch (这里是)中找到了一些应该能工作的东西。这个想法是让脚本女巫调用我进程的每一步(爬行、获取、解析、.)在一定数量的数据(例如1000URL)上周期性地。 bin/nutch inject crawl/crawldb crawl/seed.txt bin/nutch generate crawl/crawldb crawl/segments -topN 25 s1=`ls -d crawl/segments/2

浏览 2提问于2012-07-30得票数 2

回答已采纳

1回答

我正在遵循Nutch教程，并得到一个"No URLs to fetch“错误

、、

遵循这里的Apache Nutch教程：正如本教程中所指出的，我已经将regex-urlfilter.txt的最后一行设置为： +^http://([a-z0-9]*\.)*nutch.apache.org/ 我的nutch-site.xml文件只包含以下几行 <property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> 我的seed.txt文件是： http://nutch.apache.org/ 然而，当我爬行

浏览 5提问于2012-06-22得票数 0

1回答

Nutch :如何将url结果与深度:1和结果与深度:2

在我在nutch运行这个命令之后： bin/nutch crawl urls -dir crawl -depth 3 -topN 5 我得到了一个url列表，比如说50个url，但是每个人都知道如何根据深度将所有url分开。所以我会得到结果：来自深度的URL 1=5个URL url url url . 来自深度2的URL =15个URL url url url . 就这样，有没有人解决过这个问题？ nutch有解决这个问题的功能吗？任何帮助都将不胜感激。

浏览 8提问于2012-10-09得票数 0

2回答

使用Nutch爬行指定的URL列表

、

我有一百万的URL列表要取。我使用这个列表作为nutch种子，并使用Nutch的基本爬行命令来获取它们。但是，我发现Nutch会自动获取列表中的URL.我确实将爬行参数设置为-depth 1 -topN 1000000。但不起作用。有人知道怎么做吗？

浏览 1提问于2012-02-06得票数 1

回答已采纳

1回答

SolrIndexer索引器nutch失败

、

如何解决这个错误？我正在使用nutch 1.12，hadoop 2.7.2和solr 6.0.0，并已将nutch schema.xml文件复制到Solr conf文件中，这是我的nutch日志错误当我运行这个命令时 bin/nutch solrindex http://localhost:8983/solr/#/devel1 crawl_Test1/crawldb -linkdb crawl_Test1/linkdb crawl_Test1/segments/* 在此url中，您可以看到错误

浏览 3提问于2016-06-01得票数 0

1回答

如何在windows中配置nutch 1.8错误: nutch : command not found

、

我正在尝试在Windows7中配置nutch，我已经按照以下步骤操作我已经下载并解压缩了apache nutch 1.8，我在conf/nutch-site.xml中指定了代理名称，如下所示 <configuration> <property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property> </configuration> 在apache home命令中，我执行了-> mkdir -p ur

浏览 0提问于2014-04-28得票数 1

2回答

Nutch 1.11(1.x)和Solr 5.3.1(5.x)之间的集成

、、

我刚刚开始使用Nutch 1.11和Solr 5.3.1。我想用Nutch爬行数据，然后用索引并准备使用Solr进行搜索。我知道如何使用Nutch的bin/crawl命令从网络上抓取数据，并成功地从本地的一个网站获得了大量数据。我还在本地启动了一个新的Solr服务器，在Solr根文件夹下使用下面的命令， bin/solr start 并使用以下命令在示例文件夹下启动示例files核心： bin/solr create -c files -d example/files/conf 我可以在管理员网址下面登录并管理files核心， http://localhost:8983/solr/#/f

浏览 3提问于2015-12-14得票数 4

1回答

使用Gora集成Nutch- Hbase和Solr

、、、

我遵循了nutch2教程并成功地将nutch与HBase集成--我的问题是当我在runtime/local/bin目录中使用以下命令./nutch crawl urls/seed.txt abc -depth 50 -topN 50爬行url时，发生错误： Exception in thread "main" java.lang.RuntimeException: job failed: name=generate: null, jobid=job_local1552667151_0002 at org.apache.nutch.util.NutchJob.w

浏览 3提问于2013-10-18得票数 0

1回答

当使用Nutch索引数据时，html的格式丢失

、、、

我试图在Nutch设置中抓取示例html文件，当我检索NutchDocument (org.apache.nutch.indexer.NutchDocument)以读取内容时，我将获得以下文本格式的数据 tstamp: [1970-01-01T00:00:00.000Z] digest: [52e6d9e5e5e96e2cfac7fcd92cd117f8] host: [] boost: [1.0] id: [:file/home/file.html] title: [Nutch1] url: [file:///ho

浏览 0提问于2018-04-18得票数 0

回答已采纳

1回答

Nutch 1.x中拒绝的URL列表

、

我正在尝试从Nutch1.x版本的seed.txt获取所有被拒绝的URL的列表。使用nutch inject命令，我可以知道被拒绝的URL的数量，但是有没有办法获得被拒绝的URL的完整列表？

浏览 4提问于2018-01-08得票数 1

1回答

在Nutch中分析Lucene

、、、

我在试着用VisualVM分析纳奇。Lucene是Nutch核心的一部分，负责生成url索引并根据某些查询搜索这些索引。我正在通过Apache Tomcat运行Nutch，我想确定Nutch在各种函数调用(包括Lucene调用)上花费了多少时间，但当我尝试使用VisualVM进行分析时，我得到了一堆关于Tomcat的分析数据，而不是关于Nutch或Lucene的。我在这里做错了什么？

浏览 1提问于2010-11-07得票数 1

回答已采纳

2回答

elasticsearch的Nutch 1.10爬行命令是什么？

、、、

使用Nutch 1.10 (新手)，我试着学习如何使用Nutch 1.10爬行，并使用ElasticSearch作为我的索引器。不知道为什么，但我无法让这个爬行命令工作： bin/crawl -i --elastic -D elastic.server.url=http://localhost:9200/elastic/ urls elasticTestCrawl 1 更新:刚刚使用 bin/crawl -i -D elastic.server.url=http://localhost:9200/elastic/ urls/ elasticTestCrawl/ 2 --几乎成功地，当涉及到命

浏览 6提问于2015-08-07得票数 2

回答已采纳

1回答

如何解决nutch readseg不转储任何内容的问题？

、

我正在使用iOS上的Nutch1.4本地，来爬行一个网站，Nutch readseg dump没有返回任何相关信息。我遗漏了什么？ I am trying to extract 'category' as new metadata from url. I am using replace to extract substring from the url. I am able to run the code and index the documents in Google Cloud Search. But it is not capturin

浏览 1提问于2019-01-30得票数 0

1回答

Nutch - clone网站

、、

我正在玩Apache Nutch，我成功地抓取了一个网站。我想用Nutch制作一个网站的克隆，这样我就可以离线访问抓取的网页。有没有办法做到这一点？我正在寻找类似端点的东西，它接收url并返回网页内容，就像我用curl GETting url一样。我知道有更多像这样的专业解决方案，但我想知道是否可以使用Nutch来做到这一点。

浏览 2提问于2015-10-27得票数 3

2回答

仅将Nutch限制为种子路径及其下面的网页

、、

我已经设置了Nutch 2.x来抓取少数几个多语域。我可以将Nutch限制为仅内链接，但不能限制子文件夹。例如，对于后续种子，我只想抓取/urdu中的URL，因为这个网站也包含其他语言的网页。现在，我如何配置或自定义Nutch来处理这些案例？

浏览 8提问于2020-09-17得票数 0

回答已采纳

1回答

在Centos上使用Solr设置Nutch

我正在尝试设置Apache Nutch和Apache Solr，以便我们的站点可以进行内部站点搜索。我遵循了我的指南，虽然它们非常有用，但它们缺乏在发生错误时该怎么办，而且大多数在这一点上似乎已经过时了。我使用的是JDK 131、Nutch 2.3.1和Solr 6.5.1 这是我从非root用户开始的操作序列 sudo wget [java url] to /opt sudo tar xvf java.tar.gz export JAVA_HOME=/opt/java/ export JAVA_JRE=/opt/java/jre export PATH=$PATH:/opt/java/bi

浏览 0提问于2017-05-30得票数 1

2回答

NUTCH:如何使take.screenshot和screenshot.location属性工作？

、、

从一周以来，我一直在学习Nutch (版本Nutch-1.14)，并且在本地模式和Hadoop-2.7.2 (伪分布式模式)中工作得很好。今天，我在nutch-site.xml中遇到了"take.screenshot"，"screenshot.location“属性，在修改这些属性之后，nutch正在爬行种子urls，但没有在本地模式和Hadoop模式下获取屏幕截图。 nutch-site.xml本地模式设置 <property> <name>take.screenshot</name> <value>true<

浏览 0提问于2018-02-21得票数 0

回答已采纳

1回答

更新Nutch以获取每个获取的URL的父URL

、

当我运行Apache Nutch 1.4爬虫时，我想存储一些额外的信息。我想存储每个URL的父URL。例如，我想抓取一个有两个指向b.html和c.html的锚链的页面a.html，所以当我抓取a.html时，我应该会得到这样的结果： a.html null b.html a.html c.html a.html 我想存储像这样的东西。我已经阅读了nutch的工作原理，并在eclipse中运行了nutch。我还读取了fetcher.java，并记录了它获取内容的位置。但是我没有成功地知道Nutch从哪里获取给定页面的子URL。我认为这一步发生在解析步骤之后。

浏览 0提问于2012-05-22得票数 1

1回答

nutch-site.xml文件的plugin-includes头下的"parse-(type1|type2)“的含义

在nutch-site.xml中，在plugin-includes头下面，当我写parse-(type1|type2)时，它是什么意思？这是否意味着对于每个由nutch获取的url，nutch首先使用type1解析器解析内容，然后顺序调用type2解析器？

浏览 0提问于2012-09-07得票数 1

1回答

使用Nutch2获取所有Pdf文件Urls

、、、

我使用Nutch2.3.1和MongoDB进行持久化。我的目标是在不下载文件URL的情况下提取它们。现在它正在下载文件。如何禁用下载并仅在数据库中持久化URL？我如何从Nutch2中提取所有爬行的URL？

浏览 1提问于2018-03-02得票数 0

回答已采纳

2回答

我想使用命令"bin/nutch inject“来注入我的爬行URL

我想使用命令bin/nutch inject注入我的爬网URL，但是我得到了一个错误 'nutch' is not recognized as an internal or external command, operable program or batch file. 我应该在哪里输入这个命令？我目前正在命令提示符下的路径C:\Users\Gaurav Kandpal\Desktop\elastic\apache-nutch-2.3-src\apache-nutch-2.3\runtime\local\b上键入此命令。

浏览 0提问于2015-12-08得票数 0

1回答

将nutch数据索引到solr时出错

、、

我试图将爬行数据从nutch索引到solr中，但收到以下错误。任何帮助都将不胜感激。 SOLRIndexWriter solr.server.url : URL of the SOLR instance (mandatory) solr.commit.size : buffer size when sending to SOLR (default 1000) solr.mapping.file : name of the mapping file for fields (default solrindex-mapping.xml) solr.auth : use authentication

浏览 0提问于2013-11-01得票数 0

1回答

索引器: java.io.IOException:作业失败

、、

我使用的是Solr 5.4.1和Apache Nutch 1.12。我能够抓取数据，但在Solr中索引的最后一步中，我遇到了以下错误。 SOLRIndexWriter solr.server.url : URL of the SOLR instance solr.zookeeper.hosts : URL of the Zookeeper quorum solr.commit.size : buffer size when sending to SOLR (default 1000) solr.mapping.file : name of the mappin

浏览 0提问于2018-05-01得票数 0

1回答

Nutch solrindex命令没有索引Solr中的所有URL

、、

我有一个从特定域爬行的Nutch索引，并且我使用solrindex命令将爬行的数据推送到我的Solr索引中。问题是，似乎只有一些爬行URL在Solr中被编入了索引。我已经将Nutch爬行输出到一个文本文件中，这样我就可以看到它爬行的URL，但是当我在Solr中搜索一些爬行URL时，我没有得到任何结果。命令我用于执行Nutch爬行：bin/nutch crawl urls -dir crawl -depth 20 -topN 2000000 此命令正在成功完成，输出将显示在结果Solr索引中找不到的URL。命令将爬行的数据推送到Solr：bin/nutch solrindex crawl/

浏览 2提问于2011-06-21得票数 3

1回答

nutch使用xpath使用tika解析自定义xml。

、

我是nutch的新手。Nutch1.7我正在研究基于xpath解析自定义xml文件和存储数据的方法。我确实看到了xml_parser插件，但这是暂停后，蒂卡已接管。如何配置嵌入在nutch 1.7中的tika，以基于xpath解析url内容。我搜索了所有的nutch文档/wiki，但是那里没有多少信息。tika试图解析和提取由于自定义格式而失败的内容，但我希望使用基于xpath的标记来存储xml。我应该将xpath信息放在nutch conf中的哪里？还是我必须重写tike解析器？任何关于正确方向的暗示都非常感谢。谢谢。

浏览 1提问于2013-12-20得票数 1

回答已采纳

3回答

使用nutch抓取PDF文档

、

我也必须从给定的URL抓取PDF文档...推荐任何工具/API来抓取PDF文档...现在我正在使用nutch抓取，但我不能抓取PDF从给定的URL...should我使用任何插件抓取PDF在nutch？ seed.txt --> regex-urlfilter.txt->+^ 提前感谢

浏览 1提问于2013-08-05得票数 3

1回答

Nutch说没有可获取的URL -检查种子列表和URL过滤器

~/运行时/本地/bin/urls/seed.txt >> http://nutch.apache.org/ ~/运行时/本地/conf/nutch-site.xml >> <?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?>  <configurati

浏览 6提问于2014-07-18得票数 1

1回答

NUTCH 1.13获取url失败: org.apache.nutch.protocol.ProtocolNotFound: url=http未找到协议

、、

获取httpurl失败，在org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.java:85) at org.apache.nutch.fetcher.FetcherThread.run(FetcherThread.java:285)：org.apache.nutch.protocol.ProtocolNotFound: url=http未找到协议使用队列模式: org.apache.nutch.protocol.ProtocolFactory.getProtocol(ProtocolFactory.j

浏览 3提问于2017-08-31得票数 1

回答已采纳