nifi mergecontent_MergeContent NiFi，拼图/json输入_NiFi如何MergeContent成单行csv - 腾讯云开发者社区

、

是否有可能从nifi接收数据，并将该数据添加到从kafka接收的数据？我尝试输入数据并查看数据。但我不知道如何获得这些数据。你得到队列中的堆叠数据了吗？是否导入存储在特定目录中的数据？首先，我想知道这在nifi中是否可能。一旦您输入了某些数据，请按住它一段时间。(例如，'testtext')当你从kafka接收到某些数据时，你将你拥有的数据添加到后面。(例如，如果您收到kafka数据，则结果应为'kafka data testtext‘。)

浏览 0提问于2019-04-17得票数 0

1回答

MergeContent NiFi，拼图/json输入

我正在尝试使用NiFi MergeContent将多个拼图文件合并在一起。对我通过ConvertRecord操作符获得的拼图文件执行https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-standard-nar/1.6.0/org.apache.nifi.processors.standard.MergeContent/index.html操作。如果你有一个如何解决这个问题的例子，请让我知道。

浏览 36提问于2021-01-05得票数 0

回答已采纳

1回答

使用NiFi处理器创建更大的ConsumeKafka流文件

、、

我创建了一个简单的NiFi管道，它从一个卡夫卡主题(使用ConsumeKafka)读取数据流，并将其写入HDFS (使用PutHDFS)。目前，我看到很多在HDFS上创建的小文件。新文件大约每秒钟创建一次，有些只有一两条记录。我希望更少、更大的文件被写入HDFS。我在ConsumeKafka中有以下设置 Message Demarcator = <new line> Max Poll Records = 10000 Max Uncommitted Time = 20s 在过去，我使用的是Flume，而不是Nifi，它有batchSize和batchDurationMillis，

浏览 3提问于2017-10-16得票数 0

回答已采纳

1回答

如何在nifi中插入批量记录

、、

我是nifi的新手，我正在尝试使用nifi在mysql中进行批量插入，下面是我的示例流程结构。 FetchFile -> ConvertRecord (covert csv to json) -> SplitJson -> EvaluateJsonPath -> routeOnAttribute -> JoltTransformJson (adding new key value pair) -> MergeContent (merge all flowfiles) -> ConvertJsontoSql (converting jso

浏览 133提问于2019-03-12得票数 1

4回答

Apache Nifi:如何知道或检查所有流文件都已被处理

我在NiFi中有flow： Download file -> UnpackContent -> PutHDFS 在将所有的流文件放入HDFS之后，我需要运行shell脚本。我如何知道或检查所有流文件都已处理？

浏览 8提问于2020-06-20得票数 3

1回答

持续合并本地文件和从S3下载的文件

我有一个从S3获取文件的Nifi流。通过S3获取一对文件，然后将其传递到MergeContent处理器。接下来，每对文件都需要一个README文件。此README文件始终相同，我已将其存储在本地。我有一个从MergeContent处理器接收内容的ExecuteStreamCommand。我尝试使用ListFile/FetchFile组合将README文件传入MergeContent处理器，但它不能像预期的那样工作。我想我要查找的最终结果是一个包含从S3下载的一对文件+ README文件的MergeContent包。

浏览 7提问于2017-02-20得票数 0

回答已采纳

1回答

无法获取nifi中文件的文件行计数

、

我将获得csv文件(每天约10-12 csv文件)，并使用nifi，我们需要获得所有csv文件的行数。我已经完成了这个getfile -> counttext ->替换文本(在替换文本中，我已经将它替换为下面的值) 现在我得到了12个文件的输出，每个文件都有这些文件的行计数，现在如何在nifi中添加这些数字示例输出文件file1:- 40 file2:- 35 file3:- 55这里我需要获取一个文件，其中我的值应该是所有文件中所有数字的总和例如：- 130 (根据上面的数据)

浏览 20提问于2019-07-20得票数 1

1回答

NiFi :准备(orAppend)流文件中所有记录的行号

我使用的是NiFi 1.9.2 我正在读取一个文本文件，恰好是一个csv文件。我在flowFile的内容中包含了文件的内容。内容如下 a,b,c d,e,f g,h,i 我想在流文件中的所有记录前加一个行号，然后 1,a,b,c 2,d,e,f 3,g,h,i 每次我通过这个处理器传送一个文件通过使用带有属性的ReplaceText处理器，我可以实现以下目标： Search Value : (?m)(^.*$) Replacement Value : ${nextInt()},$1 但是由于nextInt()持久化，所以在运行的NiFi实例的生存期内它的值 0,a,b,c

浏览 1提问于2021-09-09得票数 0

回答已采纳

1回答

MergeContent不同步

我在Nifi中使用MergeContent处理器将两个far文件合并到一个大JSON对象中，我到目前为止所做的工作如下：所以我的合并内容是使用UUID属性完成的。我的问题是，这个数据流有时只给我两个流文件中的一个，另一个问题是如何确保我的mergeContent流文件是固定顺序的。

浏览 3提问于2016-12-07得票数 1

回答已采纳

1回答

Apache nifi将数据从json保存到orc的问题

、、、

我使用的是NIFI jsontoavro->avrotoorc->puthdfs。但面临以下问题。 1)单个ORC文件正保存在HDFS上。我没有使用任何压缩。2)当我试图访问这些文件时，它们给出了类似于缓冲内存的错误。提前感谢您的帮助。

浏览 14提问于2017-08-27得票数 2

1回答

Nifi内容与属性修改技术

、、

在Nifi中，我们可以通过两种方式设计一个流：基于内容的修改(UpdateContent) --在这种方法中，我们直接修改流文件的内容。在每个阶段，流文件内容将被持久化在流文件存储库中。样本流： ListFile -> FetchFile -> ValidateRecord (sanity) -> UpdateContent -> CSVtoAvro -> AvrotoORC - >PutHDFS 基于属性的修改(UpdateAttribute) --在这种方法中，我们将流文件的内容作为属性存储在内存中，并直接修改它们。更新完成后，我们将

浏览 4提问于2020-06-22得票数 1

1回答

Nifi consumekafka不接受上行连接

、、、

我正在使用consumekafka投票消息，每隔500到10000条记录，而nifi迭代每30秒发生一次。我想消费iteration一旦所有作业完成轮询下一次迭代。但是consumekafka处理器不支持上行连接。一旦puthdfs成功，我需要使用下一次迭代，在这里我提到了nifi工作流。工作流程： consumekafka -> mergecontent->convertRecord->updateattribute->puthdfs

浏览 15提问于2020-04-06得票数 0

1回答

合并文件时nifi-1.0.0块

我有一个处理csv文件的流程(最大文件大小约为700 mB)。我将这些文件拆分成一行的流文件，然后进行一些处理，最后使用ExtendedMergeContent处理器作为同步机制。问题是，如果我处理每个csv文件，当它们在MergeContent的队列中时，它会阻塞nifi实例。当我有超过150万个文件时，它会阻塞。 Nifi在服务器上运行(32个内核，大约200 GB的RAM)。Nifi堆大小为64或128也会出现同样的问题。你知道为什么会发生这种事吗？如果我处理5个很小的csv文件，没有问题，处理器工作正常。 ExtendedMergeContent是一个继承了MergeConten

浏览 0提问于2016-11-12得票数 1

1回答

Apache :使用GetFile到ExecuteProcess的管道文件

我有一个python脚本，它接受命令行参数来解密文件。要执行的python命令如下所示： python decrypt.py -f "file_to_decrypt.enc" -k "private_key_file.txt" 我试图使用GetFile处理器在NiFi中拾取这些文件，因为我可以在日志中看到文件名，因此它负责挑选这些文件。另一方面，我有一个ExecuteProcess进程设置来运行上面提到的python脚本。但是，我需要将文件名传递到ExecuteProcess中，这样才能使Python工作。因此，我的问题是，如何将文件从GetFile进程传输到

浏览 3提问于2017-01-31得票数 3

回答已采纳

1回答

将nifi摄取到hdfs到单个目录

、、、

场景来自windows的名为test_csv.csv的CSV数据。摄取CSV数据到hdfs。节拍> (ListenBeats) NiFi (PutHDFS) > HDFS 数据样本： a,b,c,d,e a1,b1,c1,d1,e1 a2,b2,c2,d2,e2 a3,b3,c3,d3,e3 a4,b4,c4,d4,e4 a5,b5,c5,d5,e5 a6,b6,c6,d6,e6 a7,b7,c7,d7,e7 a8,b8,c8,d8,e8 根据Nifi的Flow UI，它工作得很好，并成功地写入了hdfs。问题是 hadoop@ambari:~$ hdfs dfs -ls /us

浏览 2提问于2020-07-06得票数 0

回答已采纳

2回答

如何只在处理器执行完成后才运行处理器？

我正在将一个表(200万行)从DB2迁移到Server。我正在使用下一个流程： ExecuteSQL (从Db2表中选择记录)。 SplitAvro (用来分割记录)。我将其配置为输出大小=1，以控制这样一种情况，即如果其中一个失败，其余的将被插入，而不会出现问题。 PutDataBaseRecord (在Server表中插入记录)。 ExecuteSQL (我需要调用一个存储过程，它对PutDataBaseRecord正在处理的表执行更新语句)。问题是，在ExecuteSQL完成所有记录的插入之前，第二个PutDataBaseRecord正在运行。只有当另一个处理

浏览 0提问于2019-06-03得票数 1

1回答

Apache : singleton实例python进程- ExecuteStreamCommand或类似

Apache NiFi的新手。如果可能的话，想知道如何实现这一设想：有一个Python脚本，它能够从stdoutthe读取文件，并且不能在ExecuteScript中定义将转换结果转换为脚本，因为NumPy是一个依赖项，脚本初始化是非常好的脚本，将几GB的数据字典加载到内存中，这是完成转换所必需的。是否有一种方法可以在NiFi处理器中托管此类脚本的单例实例？实例的生存期应持续到处理器停止为止。目标是避免每个流文件的脚本初始化和相关内存的重新分配。相关问题: NiFi允许缓冲流文件并将集合作为一个整体传递给处理器吗？

浏览 0提问于2020-03-18得票数 0

回答已采纳

1回答

通过SplitJson和MergeContent过滤JSON

我正在构建nifi中的流，在流中我需要通过一个字段过滤JSON。因此，我决定拆分json，然后通过SplitJson和MergeContent处理器合并过滤部分。我的splitJson proccesor JsonPath是$.items[?(@.name =~ /.*Test.*/i)]，所以它拆分正确，但是当我想将所有部分合并到一个json文件中时，(Merge Strategy = Defragment)和它合并文件的方式是错误的。例如：输入 { "items": [ { "name": "A" }, { "name":

浏览 1提问于2019-07-28得票数 1

回答已采纳

2回答

在NiFi中将流文件移动到下一个处理器之前引入时间延迟

在NiFi中，存在来自MQTT (ConsumeMQTT)的数据流并将其发布到HDFS (PutHDFS)。在将消耗的数据推入HDFS路径之前，我需要引入60分钟的延迟。发现ControlRate和MergeContent处理器是可能的解决方案，但不确定。引入时滞的理想解决方案是什么？示例:在上午9:00消耗的流文件应该在上午10:00发布到中

浏览 21提问于2020-05-18得票数 8

回答已采纳

2回答

在使用mergecontent处理器组合每个csv流文件时添加新行

、、、

这是关于Nifi中MergeContent处理器的问题。我想添加换行符时，结合每个csv流文件，使用MergeContent处理器。与我的问题相似，这里有一个问题的答案。它说，我只需为划界器策略设置"Text“，并在属性设置中为Dmarcator键入"shift+enter”。但是它根本不起作用，在每个流文件的末尾打印"shift+enter“。我还尝试了"\n“、"\n”shift+enter和其他方法，但这些方法都不起作用。预期产出： column1, column2, column3 value1, value2, value3, va

浏览 13提问于2019-05-23得票数 0

回答已采纳

1回答

如何在NiFi中创建GZIP包？

我有成千上万的文件，我想GZIP在一起，以使他们发送效率更高。我使用了MergeContent，但这会创建zip文件，而不是GZIP。另一边的系统只是在寻找GZIP。我可以使用CompressContent创建一个GZIP文件，但这对跨网络发送并不有效。此外，我需要保留单个文件的头文件，这就是我想使用MergeContent的原因。我可以将文件作为流文件包写入磁盘，运行脚本，获取结果，然后发送，但我认为我可以在NiFi中实现这一点，而无需写入磁盘。有什么建议吗？

浏览 5提问于2022-03-01得票数 0

回答已采纳

2回答

通过nifi将数据插入进水数据库太慢了。

、

我在NiFi中有数据管道，它通过"ExtractText“处理器监听系统日志和处理接收到的数据并提取属性，然后通过"ReplaceText”进行内流输入格式，最后由"PutInflux“处理器插入到进水数据库。但是我在putInflux处理器前有一个很长的队列，因为插入速度比生成的数据慢。请帮助我提高插入速度。

浏览 2提问于2018-11-12得票数 0

回答已采纳

1回答

NiFi:为ExecuteScript处理器编写代码以组合多个条目

、

我有一个NiFi流(可以工作)，它根据公司名称将一个庞大的电子表格分割成单独的csv。例如。 GetFile -> SplitText -> PartitionRecord -> MergeContent -> UpdateAttribute -> PutFile 举个例子， csv的问题是这样的，同一家公司的输入略有不同：我知道我需要在这里安装一个ExecuteScript处理器。我需要将所有这样的复制合并到一个文件中，而不需要梳理几千行就可以挑选出以多种方式输入的每一家公司。我认为使用Groovy可以很容易地做到这一点： flowFi

浏览 1提问于2018-10-09得票数 0

回答已采纳

2回答

nifi 1.0.0 -扩展标准处理器的行为

、

我有一个扩展MergeContent进程的自定义处理器，当NiFi启动时，我在日志中看到以下错误： 2016-09-09 18:17:00,607 ERROR [main] org.apache.nifi.NiFi Failure to launch NiFi due to java.util.ServiceConfigurationError: org.apache.nifi.processor.Processor: Provider org.apache.nifi.processors.standard.DetectDuplicate could not be instantiated j

浏览 8提问于2016-09-10得票数 2

回答已采纳

1回答

Apache NiFi调优问题

、

我已经开发了一个用于HDFS中数据摄取的NiFi流原型。现在我想要提高整体表现，但我似乎真的无法向前迈进。流接收输入csv文件(每行有80个字段)，在行级别拆分它们，将一些转换应用到字段(使用4个自定义处理器依次执行)，将新行缓冲到csv文件中，并将它们输出到HDFS中。我开发处理器的方式是，在读取每个记录并将其字段移动到flow文件属性时，只访问流文件的内容一次。在amazon m4.4xlarge实例(16核EC2，64 GB )上进行了测试。，这是我迄今为止尝试过的：在不同的SSD驱动器上移动了流文件库和内容存储库。在内存中移动源存储库(NiFi无法跟上事件率

浏览 4提问于2016-09-27得票数 5

回答已采纳

1回答

如何在Nifi中使用MergeConent处理器

我有一个Nifi流，在Json中有多行数据，对于每个行，需要执行以下操作：拆分数据(EvaluateJsonPath)并将相关字段插入数据库(Mysql)，将表A的字段取为表A，并将它们放入DB中。此操作的返回值是表A中自动生成的ID。从表插入获取返回值，并与表B字段合并。表A的返回值成为表B中的引用值，因此分隔行条目成为链接。我已经设置了flow (见图)，但是MergeContent处理器失败了，因为我认为它不知道如何正确地合并内容。如果我有200行，它只合并一行，其余的就失败了。我在Nifi中读过关于碎片整理的文章，但是没有成功地实现它，所以非常感谢您的任何输入。流程图：

浏览 7提问于2019-11-15得票数 1

2回答

Nifi:使用MergeContent处理器将所有必要的流文件合并到一个快照中

、

这是关于Nifi中的MergeContent处理器的问题。目前，我需要以一种方式将所有具有一个特定属性的流文件组合在一起。但是发生的情况是，由于有如此多的flowFile具有相同的属性，所以处理器生成几个与该属性合并的不同的流文件，并且这几个流文件应该被合并到一个大的流文件中。它们有没有办法等待所有具有相同属性的流文件进入MergeContent处理器，并同时合并所有这些流文件？如果不是，还有什么办法呢？

浏览 285提问于2019-05-29得票数 3

1回答

如何处理Nifi中的小文件问题

我目前在Nifi的流程是这样的 ListHDFS->FetchHDFS->SplitText->JoltransformJSon->PUTHBaseJSON. 每小时输入的JSON文件最多为10 of。单个文件大小为80 -100MB。 Splittext & JoltTransform ->转换文本并将其作为4KB文件发送。因此，每小时的作业最多需要50到1.20分钟来完成流程。我怎么才能让它更快。处理用例的最佳流程是什么？我尝试过使用Mergecontent，但效果并不好。感谢所有人

浏览 1提问于2018-09-22得票数 0

1回答

Nifi MergeRecord & MergeContent无法合并具有不同模式的avro flow fiels

、、

我使用NiFi Flow作为ListFile >> FetchFile >> SplitJson >> UpdateAttribute >> FlattenJson >> InferAvroSchema >> ConvertRecord >> MergeRecord >> PutParquet。 Json投入： [{ "Id": 1235, "Username": "fred1235", "Name

浏览 1提问于2018-05-21得票数 1

回答已采纳

1回答

将NiFi中的流文件的文件名附加到CSV文件

首先，我使用listFile处理器列出特定映射中的所有文件。然后，我想将NiFi中的流文件的${filename}附加到外部文件example.csv。我想过在Python中使用ExecuteScript，但不知道怎么做。我尝试了以下几种方法：使用两个列表处理器，一个用于映射，另一个用于example.csv文件。用于将文本替换为${filename}、mergeContent和putFile(replace example.csv)的replaceText处理器。只在第一次时起作用。

浏览 2提问于2018-06-08得票数 0

1回答

Apache NiFi如何将逗号附加到属性值

、、

我正在尝试将逗号放在属性值的末尾，即我当前具有: EVALUATEJSONPATH -> UPDATEATTRIBUTE(删除所有未指明的属性) -> ATTRIBUTESTOCSV -> MERGECONTENT 问题是我的合并内容的所有值都是不饱和的，所以我想找出一种方法来分隔这些逗号。

浏览 17提问于2020-08-06得票数 0

2回答

Nifi-1.0.0 -同步机制

、、、

NiFi是否有同步机制，以便知道什么时候完成了处理？我摄取了一些数据，做了一些处理，在步骤N-1中，我想知道所有的数据都已经被处理了，以便进入(最后)步骤N。 GetFile / 1000行-> Proc1 /流程步骤0PutSQL / insert到db

浏览 4提问于2016-09-15得票数 2

回答已采纳

2回答

多个流文件Nifi的单一通知邮件

、

我试图从数据库中复制数据，并使用nifi将其放在S3中。我能够从数据库中复制数据并将其放在S3中。现在，我试图为这个流添加错误处理。我刚为错误通知添加了PutEmail处理器。我只是给了一个错误的桶名来验证电子邮件。这个PutEmail处理器将为每个流文件触发(因为有100个流文件，邮件会触发100次)。我只想在流中出现错误时只触发PutEmail(通知)一次。请对此有任何建议。下面的是流程：任何关于更好(通用)错误处理的建议都将对我有所帮助。

浏览 1提问于2018-03-09得票数 1

回答已采纳

1回答

如何使用PutMongo将json数组插入到Apache Nifi中的mongodb集合中？

、、、

我正在尝试使用Apache nifi中的Putmongo处理器将json数组插入到mongodb中。但是我得到了一个错误： error: current bson type is an array and not a document 下面是我的json： [{"Name":"computer","TotalRevenue":15000}, {"Name":"music","TotalRevenue":1500}, {"Name":"space","Tota

浏览 55提问于2020-12-22得票数 0

1回答

Apache NiFi支持批处理吗？

我需要知道Apache NiFi是否支持在完成之前运行处理器。 “进程组中的一系列处理器的执行等待一个进程组的结果执行完成”. 例如，：假设NiFi UI中有三个处理器。 P1-->P2-->P3 P-->Processor 现在我需要运行P1，如果它完全运行，那么运行P2，最后它将像序列一样运行，但是一个等待另一个完成。编辑-1：例如，我在web URL中有数据。我可以使用GetHTTP处理器下载这些数据。现在，我将其存储在putFile内容中。如果文件保存在putFile目录中，那么运行FetchFile将该文件处理到我的数据库中，如下所示。 Get

浏览 2提问于2017-01-12得票数 1

2回答

NIFI:连接来自不同数据库的两个表

我有两个事务性的表，它们来自不同服务器上的不同数据库。我想基于公共属性将它们连接起来，并将结果完全存储在不同的数据库中。我一直在寻找NIFI中的各种选项，以便将其作为每月运行的作业来执行。到目前为止，我一直在尝试各种选择，但似乎都不起作用。例如，我使用了ExecuteSQL1 & ExecuteSQL2 -> MergeContent-> PutSQL 有没有人能在这个问题上指点一下？

浏览 54提问于2019-02-02得票数 0

1回答

NiFi转发/复制TCP流

、、

我应该复制一个二进制TCP流。因此，我设置了一个NiFi 1.9.0服务器，放入一个ListenTCP处理器和一个PutTCP处理器，配置适当的I和端口并连接它们。到目前为止，这些数据包被ListenTCP处理器接收，也被PutTCP处理器存储。但是NiFi似乎在处理数据，发送的数据包与接收的数据包不完全相同。我原以为NiFi会把所有事情都提前1:1，但有些事情正在发生，我不知道是怎么回事。我一直在处理ListenTCP处理器上的字符集、最大批处理大小和批处理消息删除器设置，以及PutTCP处理器上的传出消息删除器和字符集。我还捣乱了一个MergeContent处理器，但没有让它正常

浏览 2提问于2019-03-11得票数 1

1回答

使用apache-nifi将两个流文件合并为一个流

、、、

我有以下使用apache-nifi的场景 Flowfile1： id,name 1,sachith 2,nalaka 3,muha Flowfile2： id,email 1,sachith@email.com 2,nalaka@email.com 合并这两个flowfile后，结果应该是： id,name,email 1,sachith,sachith@email.com 2,nalaka,nalaka@email.com 3,muha, 这里最重要的部分是，3,muha,行应该是email字段为空的。我引用了，它与我的问题非常相似。而不是为该行添加空值。现在，我尝试使用MergeCo

浏览 6提问于2019-12-03得票数 0

1回答

NiFi如何MergeContent成单行csv

、、

我刚开始使用Nifi，在将两个csv文件合并为单行csv时遇到了问题。如果这个问题已经在下面得到了回答，我很抱歉。但是，我已经尝试了整个互联网，但无法找到一个具体的解决方案，我的需求。所以问题来了:我有一个Json格式的数据，我需要把数据转换成csv格式，文件输出应该是一个平面csv文件。我从如下所示的Json数据开始： {"header": {"messageId": "xxx", "name":"xxx",..}, "content": {"TimeStamp":"

浏览 36提问于2020-01-31得票数 1

回答已采纳

1回答

使用nifi在条件下合并流文件？

、

我有一个来自同一个处理器的3个流文件。 FF1 -> {a:1，b:2，c:'name'} FF2 -> {a:1，b:5，c：‘水果’} FF3 -> {a:2，b:3，c:'abc'} 通过使用MergeContent处理器，我能够合并所有流文件，但我的要求是在键上合并流文件。如果我用‘a’键加入，那么预期的输出： FF1 -> {a:1，b:2，c:'name'}，{a:1，b:5，c：‘水果’} FF2 -> {a:2，b:3，c:'abc'}

浏览 1提问于2018-06-28得票数 2

回答已采纳

2回答

使用Apache将CSV文件转换为JSON

我正在尝试从本地文件系统读取csv，并使用Apache将内容转换为JSON格式，并将JSON格式文件放在本地系统中。我成功地转换了csv文件的第一行，但没有转换其他行。我遗漏了什么？输入：1,aaa,loc1 2,bbb,loc2 3,ccc,loc3 我的nifi工作流如下所示：我的输出如下所需的格式，但我希望对所有行都这样做。 { "id" : "1", "name" : "aaa", "location" : "loc1" }

浏览 1提问于2016-06-20得票数 1

回答已采纳

1回答

用于记录丰富的NiFi流

、

我正在使用JSON1.11.4构建一个数据管道，其中IoT设备以NiFi格式发送数据。每次从IoT设备接收数据时，我都会收到两个JSON； JSON_INITIAL { devId: "abc", devValue: "TWOINITIALCHARS23", } 和JSON_FINAL { devId: "abc", devValue: "TWOINITIALCHARS45", } 有几毫秒的时间差，我用来接收这两个流文件。在我的用例中，我需要以这样的方式合并这个JSON，我得到的JSON如下所示(请注意在

浏览 6提问于2020-08-05得票数 0

2回答

在NiFi中合并两个JSON流文件

我想通过相同的指定属性合并包含JSON对象的两个流文件... flow1: attribute: xuuid = 123456 content: { "sname":"jack", "id":"00001", "state":"NY" } flow2: attribute: xuuid = 123456 content: { "country":"US", "date":"1983" } 我期望这种形式的数据出现在单

浏览 237提问于2018-09-02得票数 5

回答已采纳

1回答

Apache NiFi -在Kafka使用者之后异步处理消息。

、

目前，我们正在使用Apache NiFi通过Kafka使用者来消费消息。kafka使用者的输出连接到DB处理器，DB处理器获取队列中的消息(来自使用者)，并在其上运行存储的proc/处理。因此，DB处理器将处理来自队列的每个消息，我可以将DB处理器设置为对n个线程并行工作，但主要是每个线程可以处理每个队列中的一个消息。我想做的事情如下：一个接一个的处理器将使用队列中的消息(或接收消息)，并表示将等待“批处理”或总计1000条消息。一旦收到1000条消息或60秒消息，并且消息计数< 1000，则推送到另一个处理器，该处理器可以在这些消息组上存储业务逻辑。主要是，我希望上

浏览 1提问于2018-08-17得票数 0

1回答

NIFI:将每月从SQL查询转储到SFTP服务器的转储作为CSV文件

在这种情况下，我希望使用SQL查询将数据作为每月的CSV存储到SFTP服务器中。例如，我的查询是： select fooId, bar from FooBar where query_date>=20180101 and query_date<20180201 --(for the month of January 2018) 我想把它作为20180101_FooBar.csv存储到我的SFTP服务器上。类似地，其他月份的其他文件遵循相同的进程，具有不同的query_date间隔。要做的重要考虑：I have to store the *fooId* as MD5 H

浏览 1提问于2018-10-12得票数 0

回答已采纳

1回答

从S3中获取文件并将其输入python脚本

、

我有一个本地NiFi流，它在本地读取文件，并通过cmd行参数将其输入python。但是，我现在希望NiFi读取存储在Amazon S3中的其他文件，并将它们输入到我的python脚本中。我使用了ListS3和FetchS3处理器来获取我的文件，并且我可以访问像s3.bucket和filename这样的变量，这些变量与存储在S3中的文件完全匹配。我还使用MergeContent合并来自FetchS3处理器的多个文件。我的python脚本确实包含以下多个文件： python myScript.py -f ~/temp/file1.txt -k ~/temp/file2.txt python脚本

浏览 3提问于2017-02-02得票数 2

回答已采纳

1回答

Apache NiFi:如何在MergeContent分界线中设置空间(新行)？

在我的NiFi流中，我有MergeContent处理器。这个处理器消耗来自不同组的一些数据。每次合并后，我都需要设置分界线来画一条新的线。现在的输出如下所示： Table ERR$_TABLE_NAME: 347 errors Table ERR$_TABLE_NAME2: 432 errors Table ERR$_TABLE_NAME3: 33 errors 但我希望它看起来像这样： Table ERR$_TABLE_NAME1: 347 errors Table ERR$_TABLE_NAME2: 432 errors Table ERR$_TABLE_NAME3: 33 erro

浏览 1提问于2022-08-05得票数 2

回答已采纳

1回答

Nifi:将深度嵌套的xml转换为csv的最快方法(ExecuteScript vs ExecuteStreamCommand)

、、、、

我一直在使用Nifi将大量深嵌套的xml文件转换为csv。需要从一个大xml创建许多小表(每个表有不同的列数)，所有这些表都将被合并，或者与特殊字符(如连字符)连接在一起，最终输出一个csv。但是，我不太确定我的方法是否最佳。我的Nifi管道如下。 GetFile ExecuteStreamCommand (python脚本) SplitJson ConvertRecord (Json到CSV) MergeContent (与fragment.identifier的策略) UpdateAttribute (在文件名后追加csv扩展名) PutFile

浏览 3提问于2019-07-04得票数 0

1回答

用PutS3Object缓冲

我简化的Nifi设置是:将ConsumeKafka_2_0处理器转换为PutS3Object处理器。我正在阅读多个主题，主题名包含在S3密钥前缀中。这很好，但是每个FlowFile都存储在一个单独的S3对象中。我如何在每个主题中积累一些FlowFiles？我遇到了MergeContent处理器，但我不确定它是否满足了我的所有需求。应该编写S3对象一段时间后，比如说10分钟在某个大小阈值之后，比如100 say (不管首先发生什么) 按顺序装箱算法可以将FlowFiles按错误的顺序合并，对吗？碎片整理似乎不起作用，但我不知道，我是否做错了什么。

浏览 0提问于2019-07-16得票数 0

1回答

控制Nifi从3个表中读取以合并所有表中的内容

我正在尝试读取3个HBase表上的新表项(使用GetHBase处理器)，并将它们合并到单个JSON中。但是，只要在各自的表上发生新的插入操作，每个GetHBase处理器就会立即运行。最后，在合并内容之后(使用MergeContent处理器)，我分别为3个表的数据获得了3个JSON。有没有一种方法可以控制HBase读取，并在所有3个表都获得新数据时才合并它们？

浏览 2提问于2017-03-03得票数 2