Nutch 1.x:如何使用s3a而不是HDFS？_Hadoop HDFS:如何设置hostname:9000而不是localhost:9000_如何使用fetch而不是request？ - 腾讯云开发者社区

hadoop、amazon-s3、hdfs、nutch

它讨论了在“部署模式”下(即在Hadoop集群中)使用Nutch时，使用HDFS来存储Nutch的数据。在使用Hadoop时，我更喜欢使用s3a而不是HDFS作为存储后端。Nutch1.x是否支持使用s3a而不是HDFS来存储数据？如果是，需要调整哪些相关的Nutch&#x

浏览 15提问于2019-08-12得票数 0

回答已采纳

2回答

提供带有自定义文件的EMR节点

java、hadoop、amazon-emr、nutch

/nutch-plugins。at org.apache.nutch.net.URLNormalizers.然后我试着把它复制到HDFS -没有帮助：hadoop jar app.jar -Dplugin.folders=hdfs:///tmp/

浏览 0提问于2019-07-24得票数 1

回答已采纳

1回答

将nutch抓取的web数据存储到hdfs中

integration、hadoop2、nutch

我已经安装了Hadoop2.x和nutch 1.x。谁能指导我如何将nutch网络爬行数据存储到hdfs中？比如提供关于该配置的任何文档或任何链接。谢谢你们所有人。

浏览 0提问于2018-04-25得票数 0

2回答

用S3作为nutch存储系统

hadoop、amazon-s3、nutch

我想使用S3作为apache的文件系统。我知道hadoop可以被配置为使用S3作为它的fs，但是我无法找到一种用nutch配置它的方法。有人能为我指出正确的方向吗?或者给我一个快速的方法。或者，能够使用readseg命令将数据转储到s3中是一种解决方案，而不是在s3中拥有整个文件系统，这可能吗？干杯

浏览 6提问于2020-03-04得票数 1

回答已采纳

1回答

纱线是如何决定制造多少个容器的？(为什么S3a和HDFS有区别？)

hadoop、amazon-s3、hadoop-yarn

我正在使用当前版本的Hadoop，并运行一些TestDFSIO基准测试(V1.8)来比较默认文件系统为HDFS和默认文件系统为S3桶(通过S3a使用)的情况。当以默认文件系统读取10 0 x1MB文件为S3a时，我观察到slower中的最大容器数量少于默认情况下的HDFS，而S3a大约是的4倍。当以默认文件系统读取 10 0 0 x10 KB文件为S3a时，我观察到slower中的最大容器数量至少比HDFS默认情况下

浏览 1提问于2016-03-01得票数 7

回答已采纳

1回答

Nutch crawl没有错误，但结果为空

nutch、web-crawler

我尝试用nutch 2.1抓取一些urls，如下所示。ParserJob: forced reparse: false运行时/local/conf/nutch-site.xmlproperty overrides in this file. -->

浏览 8提问于2013-04-14得票数 2

2回答

我是用Nutch* 1x还是2x加弹力搜索？*

elasticsearch、nutch

几年来，我一直使用Nutch 1.10将数据索引到Elasticsearch中。不久前，我决定开始Nutch和ES更新版本的升级过程。经过大量的谷歌搜索，人们似乎越来越多地使用Nutch2.x，尽管看起来Nutch1.x速度更快，开发更加活跃。似乎在Nutch 1.10之后，在ES中使用Nutch 1x也变得更加困难。看起来最大的区别在于，您可以使用Nutch2.x将爬行的数据存储到不同的数据库中。

浏览 2提问于2018-01-19得票数 1

回答已采纳

1回答

更新一个旧的Nutch插件，以便能够在Nutch* 2.3.1中使用Xpath解析*

java、solr、nutch

我正在使用ApacheNutch2.3.1进行一个项目，我需要能够从下载的html页面中提取特定的数据。我找到了一个插件(解析-xml NUTCH-185)，它可以帮助我实现这个目的，但是它使用的一些库已经不存在或被废弃了，我打算做的是进行必要的修改，使它与Nutch 2.3.1兼容--在Nutch编译中给我一个错误的库是这样的，您能帮我找到Nutch 2.3.1的对应库吗？import org.apache.lucene.document.Document; import org.ap

浏览 1提问于2018-09-13得票数 0

回答已采纳

1回答

火花结构流写入错误

apache-kafka、spark-structured-streaming

当我消耗和接收卡夫卡的信息时，我遇到了一些奇怪的错误。我运行的是2.3.0，我知道这在其他版本之前就已经开始工作了。.option("kafka.bootstrap.servers", <server list>).load() .partitionBy(<some column&

浏览 0提问于2018-06-12得票数 0

回答已采纳

1回答

我如何为nutch配置mongoDB？

mongodb、nutch

最近我试着完成了一个网络蜘蛛，我使用nutch-1.10，我想把数据加载到mongoDB中，这些数据是由nutch / gotten获得的，我不知道如何为nutch配置mongoDB，我找不到相关的材料我知道，从一些博客中可以看出，Noch2.x是必须的，而1.x却不能达到我的目的！但是配置的细节对我来说还不清楚！有人能把它弄清楚吗?谢谢！

浏览 1提问于2016-01-18得票数 2

回答已采纳

1回答

在EMR上运行Nutch爬网(新手)

amazon-web-services、nutch、emr

我是第一次使用EMR/Hadoop，也是第一次使用Apache Nutch。我正在尝试使用Apache Nutch 2.1来做一些屏幕抓取。我希望使用S3作为输出(以及我需要的任何输入)。 $NUTCH_HOME/

浏览 1提问于2013-06-03得票数 2

1回答

Nutch对原始数据的持久存储的最佳选择

amazon-web-services、amazon-s3、amazon-emr、nutch

我必须爬行约30k到50k域与Nutch 1.x的EMR AWS服务。这将是渐进的，即，首先抓取所有网页，然后只有新的或更新的网页为这些网站。对于索引，我使用Apache。对于我的第一个问题，最好将S3配置为HDFS的后端存储，还是应该手动复制EMR作业结束时的文件夹。在这两种情况下，要优化原始数据在S3中的存储，在将数据从/导出到S3集群或从EMR集群导入或导出时，如何压缩数据。我如何指示Nutch只从给定的种子中爬行新发现的页面？

浏览 8提问于2022-05-07得票数 0

回答已采纳

1回答

当使用Nutch索引数据时，html的格式丢失

java、solr、hbase、nutch

我试图在Nutch设置中抓取示例html文件，当我检索NutchDocument (org.apache.nutch.indexer.NutchDocument)以读取内容时，我将获得以下文本格式的数据] content: [Nutch1 Nutch1 The Apache Nutch PMC are pleasedto announce the immediate re

浏览 0提问于2018-04-18得票数 0

回答已采纳

2回答

使用distp和s3a方案将文件从HDFS复制到Amazon s3a

hadoop、amazon-s3

使用ApacheHadoop2.7.2版本，并尝试使用以下命令将文件从HDFS复制到Amazon。hadoop distcp hdfs://<<namenode_host>>:9000/user/ubuntu/input/flightdata s3a://<<bucketid>> 使用上面的命令获取异常下面java.lang.IllegalArgumentE

浏览 0提问于2016-05-05得票数 0

回答已采纳

1回答

使用Nutch搜索堆栈组件

mongodb、nutch

我试图理解Nutch 1.x和Nutch 2.x之间的区别，如果我只是尝试使用Nutch爬行几百个网站，然后将数据索引到Elasticsearch v2.3.0Nutch 2.x的一些用例是什么？为什么<em

浏览 3提问于2017-05-18得票数 0

回答已采纳

1回答

什么是火花S3 (或S3A)委员会用简单的话，以及什么时候我应该使用它们？

apache-spark、amazon-s3

谁能解释什么是火花S3委员会和魔术委员会是如何区别于其他？我什么时候应该用一种而不是另一种？

浏览 3提问于2021-11-17得票数 1

回答已采纳

1回答

给出深度=‘N’的Nutch爬行与深度=‘1’的循环N次爬行的区别

hadoop、nutch

问题的背景:我在Hadoop0.20.203上运行Nutch1.4。有一系列的MapReduce作业，我正在执行的纳奇段，以获得最终的输出。请查找以下伪码：据我所知，到目前为止，Nutch触发器在一个循环中爬行的

浏览 0提问于2012-07-12得票数 0

2回答

打开存储在hdfs中的lucene索引

lucene、hadoop、hdfs

如何读取通过HDFS存储的lucene索引目录，即如何获取通过HDFS存储的索引的IndexReader。IndexReader将在映射任务中打开。类似于: IndexReader reader = IndexReader.open("hdfs/path/to/index/directory")；谢谢，阿基尔

浏览 0提问于2010-05-04得票数 2

回答已采纳

1回答

亚马逊S3错误代码403从EMR集群中禁止

amazon-web-services、hadoop、amazon-s3、emr

我已经创建了一个具有S3只读权限的IAM用户(在所有S3资源上获取并列出)，但是当我尝试使用HDFS命令从EMR集群访问S3时，它会对某些文件夹抛出"Error Code403禁忌“异常。其他帖子的人回答说这是一个许可问题，但我没有找到正确的解决办法，因为这是“禁止的”，而不是“拒绝访问”。此错误的行为仅针对桶中的特定文件夹(包含对象)和某些空文件夹出现。有人注意到，如果我使用本机API调用，那么它通常按照以下方式工作：<em

浏览 3提问于2017-01-10得票数 1

1回答

Apache Nutch不公开其API

docker、docker-compose、nutch

我正在尝试使用Apache Nutch 1.x Rest API。我使用docker镜像来设置Nutch和Solr。您可以在中查看演示存储库 Apache Nutch使用Solr作为其依赖项。Apache Nutch 1.X RESTAPI 表明我可以像下面这样启动服务器2. :~$ bin/nutch startserver -port <port_number> [If the portGE

浏览 20提问于2021-06-12得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云