在hdfs中存储小文件并在Nifi Flow中对其进行归档

文章/答案/技术大牛

发布

1回答

hadoop、apache-kafka、hdfs、apache-nifi、execute-script

我有一个小文件和HDFS的问题。场景:我正在使用NiFi来阅读卡夫卡主题中的消息，这些都是非常小的。要求:将这些原始数据消息存储在HDFS中(用于重放功能)，...before对其进行进一步处理。我一直在考虑定期对它们使用Hadoop Archive (HAR)。这是我可以通过Nifi做的事情吗？“har命令看起来像是命令行的东西，而不是我可以通过Ni

浏览 11提问于2020-08-19得票数 0

回答已采纳

1回答

恢复NiFi项目

apache-nifi、minify

然而，我的NiFi项目消失了。当我转到http://192.168.1.36:8080/nifi/时，我只看到一个空白画布。有没有办法让它复活？ NiFi安装在/opt/nifi-1.10.0/

浏览 34提问于2021-01-23得票数 0

回答已采纳

1回答

用Kafka作为“进入门”将批离线数据加载到DWH环境中

hadoop、apache-kafka、hdfs、bigdata

如你所见：有什么想法？

浏览 4提问于2017-11-16得票数 1

回答已采纳

1回答

HDF到HDP数据存储

hdfs、apache-nifi

一种是包含Nifi的hdf集群，另一种是包含HDF、Hive等组件的HDP集群。我们正在从文件中读取数据，并希望将其放入hdp群集hdfs中。提前感谢

浏览 1提问于2016-10-28得票数 0

1回答

NiFi合并记录处理器在使用ParquetRecordSetWriter时不符合最小存储空间大小

apache-nifi、avro、parquet

我试图在NiFi (1.11.4)中构建一个流，该流读取来自AMQ的Avro消息，使用对它们进行累加，然后将合并的parquet文件写入HDFS。问题是，当我试图在Merge Record处理器(与AvroReader一起)中使用时--合并的内容永远不会根据最小Bin大小阈值发出--我尝试设置非常低的值--它只是不起作用。我尝试使用AvroRecordSetWriter，然后是PutParquet (或ConvertAvroToParquet) )，并面临另一个问题:如

浏览 3提问于2020-09-25得票数 0

1回答

如何使用结构化流的writestream进行重新分区的文件写入？

apache-spark、pyspark、spark-streaming、spark-structured-streaming

我有一个结构化的流代码，从Kafka读取数据，并转储到HDFS。在转储数据时，我以三列为基础对数据进行分区。我面临的问题是在批处理过程中生成了许多小文件。我希望在每个partitionBy的批处理过程中只生成一个文件。我不确定在这种情况下如何应用重新分区，因为它似乎不起作用。.option("checkpointLocation", self.checkpoint_location) \ .option('p

浏览 16提问于2019-12-11得票数 0

回答已采纳

1回答

Nifi内容存储库未清理，并随着时间的推移不断累积

apache-nifi

Nifi内容存储库在重新启动后的一段时间内与Nifi状态栏同步工作，Nifi版本1.9.1。在那之后，它开始逐渐增长，只有在重新启动时才会再次下降。我混合了小文件和大文件，并且正在合并文件以在流中创建大文件。我可能遇到了一个错误，https://issues.apache.org/jira/browse/NIFI-6150可能在下面提到的三种情况下都不起作用： 1)既

浏览 23提问于2020-05-02得票数 3

1回答

Apache NiFi调优问题

performance、apache-nifi

我已经开发了一个用于HDFS中数据摄取的NiFi流原型。现在我想要提高整体表现，但我似乎真的无法向前迈进。流接收输入csv文件(每行有80个字段)，在行级别拆分它们，将一些转换应用到字段(使用4个自定义处理器依次执行)，将新行缓冲到csv文件中，并将它们输出到HDFS中。我开发处理器的方式是，在读取每个记录并将其字段移动到flow文件属性时，只访问流文件的内容一次。在amazon m4.4xlarge实例(16核EC2，64 GB )上进

浏览 4提问于2016-09-27得票数 5

回答已采纳

1回答

从har档案中查询数据- Apache Hive

hadoop、hive、partitioning、hadoop-archive

我正在使用Hadoop，并面临着大量小文件的可怕问题。我需要能够从现有的蜂巢分区中创建har档案，并同时查询它们。然而，Hive显然只支持在托管表中存档分区，而不支持在外部表中存档--这是非常可悲的。我试图通过使用hadoop的归档工具手动归档分区目录中的文件来找到解决办法。现在，我需要配置hive，以便能够查询存储在这些归档文件中的数据，以及存储在其他分区目录中

浏览 3提问于2016-06-03得票数 1

回答已采纳

1回答

NiFi在处理器之间传输数据

apache-nifi

首先，我需要从REST服务中获取accountIds，然后使用接收到的值创建新的HTTP请求来获取令牌，然后使用这个令牌来创建一些带有Oauth2的请求。 ? 这个数字我应该放到下一个getToken中作为GET参数之一(在屏幕截图上我硬编码了这个)： ? ? 这将返回一个令牌。Token是一个text/plain;charset=UTF-8。然后，我想再次使用InvokeHttp，添加属性Authorization并添加到此属性Bearer + received token中。我真的不知道如何在以

浏览 33提问于2020-12-10得票数 1

回答已采纳

1回答

当我使用FileSystem.get(URI.create("hdfs://loacalhost:9000/filepath")，conf时发生了什么？

hadoop、hbase、bigdata、rpc

在一个需要我优化HDFS小文件支持的项目中，我感到困惑。其步骤如下： hdfs fs -put ~/local/smallfile /usr/s

浏览 0提问于2015-05-31得票数 0

1回答

如何为Kerberized集群配置Apache NiFi

hive、kerberos、cloudera、hortonworks-data-platform、apache-nifi

我让Apache NiFi独立运行，运行良好。但是，当我尝试设置Apache NiFi来访问Hive或HDFS时， Kerberized集群。我有问题了。有人能指导我设置HDFS/Hive/HBase (与Kerberos一起)的文档吗？下面是我在nifi.properties中给出的配置nifi.kerberos.krb5.file=/etc/krb5.conf nifi</

浏览 4提问于2016-12-23得票数 3

2回答

用spark保存和处理大量小文件

hadoop、apache-spark、hdfs、amazon-emr

我有一些问题，如何处理和如何保存大量的小文件(pdf和ppt/pptx)的火花，在EMR集群。我的目标是将数据(pdf和pptx)保存到HDFS(或集群中的某种类型的数据存储中)，然后从spark中提取该文件的内容，并将其保存在elasticsearch或关系数据库中。在HDFS中保存数据时，我读过小文件的问题。保存大量pdf & pptx文件(maxim 100-120MB)的最佳方法是什么？我读

浏览 12提问于2016-12-09得票数 3

回答已采纳

2回答

Spark流到配置单元，每个分区有太多小文件

apache-spark、hadoop、hive、apache-kafka、spark-streaming

此作业读取Kafka主题，创建一个数据集，并在其上应用模式，然后将这些记录插入到Hive表中。Spark作业在配置单元分区中为每个批处理间隔创建一个文件，如下所示：我正在寻找有效的方法来做一个后期处理，合并所有这些小文件，并创建一个大文件。如果有人以前做过，请分享你的想法。

浏览 0提问于2018-03-20得票数 2

4回答

是否将多个文件存储在单个块中？

hadoop、hdfs

当我将许多小文件存储到HDFS中时，它们是否会存储在单个数据块中？在我看来，根据下面的讨论，这些小文件应该存储到单个块中：

浏览 0提问于2014-01-22得票数 4

1回答

将外部数据存储到NiFi注册表中

apache-nifi、apache-nifi-registry

是否可以使用REST将外部数据(而不是NiFi流)存储到NiFi注册表中？据我所知，NiFi注册表是为NiFi流的版本化而设计的。但我想知道它是否能够将其他数据存储到NiFi注册表中，并根据版本检索它。

浏览 0提问于2018-07-03得票数 3

回答已采纳

1回答

如何使用状态更新从dev到prod的流

apache-nifi

我有一个nifi流，它保持了ListS3处理器的一些状态。我有一个dev实例和一个prod实例。我想要一些从dev部署到prod的选项，其中保存了状态，并且我不必手动进入并更改所有处理器和进程组。基于以下堆栈溢出问题： how does NIFI listfile maintains its timestamp? 编辑:为了避免误解，我希望在部署时保持prod状态。

浏览 14提问于2021-03-19得票数 0

回答已采纳

1回答

为什么Apache NiFi* MergeRecords处理器没有按照配置合并记录数？*

java、apache-nifi

需求是以一定的间隔将这些消息存储到HDFS中。因为我们要存储到HDFS中，所以我们希望将这些记录中的某些数量合并到单个文件中。根据NiFi ，我们为此使用了处理器。这些都是基于相同的模式(它们是从一个卡夫卡主题中挑选的) 预期行为对于上述配置，预期MergeRecords应该对其中一个阈

浏览 1提问于2019-03-28得票数 2

2回答

Apache和Nifi集成

apache-spark、apache-nifi

我想将Nifi流文件发送到Spark，并在Spark中进行一些转换，然后再次将结果发送回Nifi，以便我能够在Nifi中进一步操作。我不想写流文件写到数据库或HDFS，然后触发火花作业。我试过在Nifi中使用ExecuteSparkInteractive处理器，但我被卡住了。任何例子都会有帮助。

浏览 1提问于2018-10-31得票数 8

回答已采纳

1回答

NiFi / Flow文件移动处理程序

apache-nifi

我一直在阅读关于NiFi的文章，很少有疑问。考虑一个用例，其中我希望将数据从本地迁移到HDFS中。我将使用getFile和putHDFS处理器。因此，当我将location传递给getFile时，它将获取数据并转移到内容存储库中，而且它将传递给putHDFS处理器进行摄取。问题：如何将数据从内容回购移到HDFS？

浏览 7提问于2016-09-11得票数 0

回答已采纳

点击加载更多