MergeRecord之前的Nifi - FlowFiles堆积_Apache NiFi -使用多个FlowFiles作为处理器的输入_在Nifi中，我们如何在putMongo之前使用deleteMongo (来自ConvertRecord的flowFile) - 腾讯云开发者社区

我正在尝试使用NiFi MergeContent将多个拼图文件合并在一起。对我通过ConvertRecord操作符获得的拼图文件执行https://nifi.apache.org/docs/nifi-docs/components/org.apache.nifi/nifi-standard-nar/1.6.0/org.apache.nifi.processors.standard.MergeContent/index.html操作。如果你有一个如何解决这个问题的例子，请让我知道。

浏览 36提问于2021-01-05得票数 0

回答已采纳

1回答

Apache NiFi --它能在处理器级别进行扩展吗？

、

给Apache NiFi的新手警报！有兴趣了解(并阅读相关材料)在集群设置下Apache管道的可伸缩性方面。假设有一个2节点集群节点1&节点2。一个简单的用例作为示例：查询数据库表的批次为100 (假设有10批)。对每批调用REST (调用Http). 如果在集群中的节点1上触发了管道，这是否意味着所有10个批仅在节点1中运行？在每个处理器级别的NiFi中都有“开箱即用”的工作分发吗？沿着5条线，每个节点对REST调用执行批处理。 NiFi的内置队列在本质上是分布式的吗？或者，在处理器级别上进行扩展的推荐方法是将先前处理器的输出发布到消息传递中间件(如Kafka)，然后使后

浏览 10提问于2022-11-14得票数 0

回答已采纳

1回答

用于将数据从RDMBS导入到HDFS的Apache与NiFi的性能比较

我们正在探索Apache NiFi，将其作为满足企业需求的通用数据摄取工具。一个典型的数据摄取需求是将数据从RDBMS系统移动到HDFS。我能够使用NiFi提供的GenerateTableFetch和ExecuteSQL处理器在NiFi中构建从关系型数据库到HDFS的数据移动流，对于较小的表，一切工作正常。 ? 但是，我无法测试更大的表的流，因为我使用的是独立的发行版。有没有人针对类似的需求做过NiFi和SQOOP的性能比较？

浏览 25提问于2019-05-14得票数 3

2回答

触发FetchFolder在NiFi？

、

我使用NiFi来使用专用处理工具(运行在NiFi外部)来编排大型二进制文件的处理。 NiFi将源文件放到磁盘上，我调用外部工具(使用ExecuteScript处理器)，该工具加载二进制文件并继续生成许多较小的文件。当外部工具完全完成时，我需要“拾取”较小(生成)文件的目录，并继续通过NiFi进行处理。我需要等待，因为输出目录、文件数量和处理所需的时间是动态的。问题： GetFile (获取目录)没有上游连接，因此我无法在处理完成时触发它。 ListFile + FetchFile组合不能工作b/c ListFile没有上行连接，所以--再次--我不能在处理完成时触发它。 .

浏览 1提问于2018-08-16得票数 0

回答已采纳

1回答

如何获取nifi队列中的flowfile计数？

我有nifi flow(独立的)，像 executestreamprocessor(hive script) -> executestreamprocessor(hadoop script). 对于每个传入的流文件，配置单元脚本将使用命令INSERT..INTO..SELECT..FROM运行，hadoop脚本将从存储区域中删除特定文件。有时，当hadoop脚本同时运行命令时，配置单元脚本会失败。我将得到每个小时最多4个文件的数量。所以我计划在hive和hadoop处理器之间使用控制率处理器。我设置了当队列数量达到4个流文件时的条件，然后执行hadoop脚本。但是，controlra

浏览 0提问于2017-05-05得票数 0

1回答

高性能处理异步任务的Nifi处理器

、

我有一个Nifi处理器，它调用一个外部服务，可能需要几天时间才能返回结果。在此期间，处理器可以定期调用Thread.sleep()来释放CPU。问题是，即使在onTrigger()方法中调用Thread.sleep()，NiFi处理器也不会读入和处理新的FlowFiles，因为它正在等待onTrigger()完成。从NiFi的角度来看，cpu仍然阻塞着异步调用的完成。在NiFi处理器的onTrigger()方法中进行异步调用时，有没有办法保持并发性？

浏览 1提问于2018-05-09得票数 0

1回答

selecehiveql处理器nifi中的默认线程数

在nifi中SelectHiveQL处理器的默认线程执行是什么，并且通常nifi处理器的默认线程是什么。我在scheduling选项卡中将并发任务设置为0，但仍然可以在日志中看到多个线程解析sql语句

浏览 3提问于2018-05-16得票数 0

1回答

Nifi处理器批量插入-句柄故障

、

我目前正在编写一个ElasticSearch Nifi处理器。单个插入/写入到ES并不是最优的，而是首选批处理文档。在Nifi处理器中跟踪(批处理)文档(FlowFiles)的最佳方法是什么，以及何时在一定数量上对它们进行批处理？我最关心的部分是，如果ES不可用、停机、网络分区等，则阻止批处理成功。问题的主要要点是，Nifi有用于排队/背压的内容存储，等等，是否有一种更好的方法来确保在目的地下降时不会丢失FlowFiles？也许还有另一个处理器我应该看看作为一个例子？我查看了Mongo处理器、合并等，试图了解处理器内部批处理的首选方法，但似乎找不到任何具体的方法。如有任何建议，将不胜感激。

浏览 2提问于2015-11-25得票数 0

回答已采纳

1回答

Nifi“按属性划分”如何将FlowFiles发送到其他Nifi节点？

我在nifi集群中有3个节点。我使用"Partition“将流文件分发到nifi集群中的其他nifi节点。例如，我使用"type"属性来表示"Partition“； FlowFile -> type: A FlowFile -> type: B FlowFile -> type: C 对于此场景，具有相同“类型”的FlowFiles将转到同一个节点。但是，假设一个节点(A类型的流文件被发送)被关闭。虽然带有“类型B和C”的FlowFiles将继续被成功发送，但是带有“类型A”的FlowFiles将保持队列状态(不会被发送)。与此同时，一款“X

浏览 1提问于2019-01-28得票数 1

回答已采纳

1回答

将nifi摄取到hdfs到单个目录

、、、

场景来自windows的名为test_csv.csv的CSV数据。摄取CSV数据到hdfs。节拍> (ListenBeats) NiFi (PutHDFS) > HDFS 数据样本： a,b,c,d,e a1,b1,c1,d1,e1 a2,b2,c2,d2,e2 a3,b3,c3,d3,e3 a4,b4,c4,d4,e4 a5,b5,c5,d5,e5 a6,b6,c6,d6,e6 a7,b7,c7,d7,e7 a8,b8,c8,d8,e8 根据Nifi的Flow UI，它工作得很好，并成功地写入了hdfs。问题是 hadoop@ambari:~$ hdfs dfs -ls /us

浏览 2提问于2020-07-06得票数 0

回答已采纳

2回答

在NiFi中合并两个JSON流文件

我想通过相同的指定属性合并包含JSON对象的两个流文件... flow1: attribute: xuuid = 123456 content: { "sname":"jack", "id":"00001", "state":"NY" } flow2: attribute: xuuid = 123456 content: { "country":"US", "date":"1983" } 我期望这种形式的数据出现在单

浏览 237提问于2018-09-02得票数 5

回答已采纳

1回答

如何与NiFi一起使用ExecuteScript处理器？

、、

我使用一个简单的ExecuteScript脚本(保存为.py文件)在Apache中对NiFi处理器进行了非常基本的设置，如下所示。在处理器的属性中，我将脚本引擎设置为python，脚本文件设置为该脚本的路径。 import time count = 0 while(count < 20): print "The counter says: ", count count = count + 1 time.sleep(.1) 这是我制作的数据流图：我没有看到任何输出到日志或PutFile。但是，我确实在\nifi-0.6.1\log\nif

浏览 5提问于2016-05-04得票数 12

1回答

从Python中返回多个文件

、

我编写了一个Python/Jython脚本，在NiFi的ExecuteScript处理器中运行，以解析无效的JSON文档。我根据问题中的脚本和Matt的奇妙的编写了下面的脚本，但是它没有返回多个流文件。相反，它返回输入流文件，并应用regex校正，但只作为一个文件。为了返回循环中每一行的一个流文件，我需要修改什么？脚本 from org.apache.commons.io import IOUtils from java.nio.charset import StandardCharsets from org.apache.nifi.processor.io import StreamCal

浏览 3提问于2020-02-25得票数 0

1回答

使用OAuth和密钥罩的NiFi队列监控工具

、、

我想知道NiFi中的总队列大小何时超过某个特定值。我尝试使用NiFi工具包，但我无法在其中找到表示总队列大小的任何内容。我一直在尝试this，它应该允许我通过API访问NiFi中一组进程中的连接。但是，我无法从NiFi成功连接到该接口。当我尝试在没有凭据的情况下连接到API时，我在NiFi中得到以下错误。 Unknown user with identity 'anonymous'. Contact the system administrator. 我相信我能够通过REST API查看队列大小，但是为了做到这一点，我需要使用OAuth和Keycloak进行身份验证，我不

浏览 23提问于2020-09-08得票数 0

2回答

如何在nifi连接中从队列中获取流文件列表？

当流被NiFi REST阻塞时，我希望从队列中获取每个流文件。我发现/nifi-api/flowfile-queues/{id}/listing-requests的函数可以满足我的needs.And it响应( ListingRequestDTO： ) 名为flowFileSummaries的字段可以返回一个flowFile.And数组，然后我可以从流文件中获取每个uuid： { "uri": "value", "uuid": "value", "filename": "value", "

浏览 1提问于2018-09-07得票数 1

回答已采纳

1回答

NiFi -当使用负载平衡时数据卡在队列中

在Apache1.15版本的NiFi中，创建了一个由3个NiFi节点组成的集群。当通过默认端口6342使用负载平衡时，流文件会卡在一些队列中，即在启用负载平衡的队列中。但是，当尝试“列表队列”时，消息“队列没有FlowFiles”。已印发： NiFi处理器组中发生问题的部分：流文件似乎被卡在其中的NiFi队列的配置：另一个可能与此无关的问题是，在这种情况发生后，一些流文件会到达后续的NiFi处理器，但是会在MergeContent处理器之前陷入困境。这一次，可以列出队列：当第二个问题发生时，代码的一部分：队列的配置：队列中FlowF

浏览 4提问于2022-03-08得票数 3

1回答

如何处理Nifi中的小文件问题

我目前在Nifi的流程是这样的 ListHDFS->FetchHDFS->SplitText->JoltransformJSon->PUTHBaseJSON. 每小时输入的JSON文件最多为10 of。单个文件大小为80 -100MB。 Splittext & JoltTransform ->转换文本并将其作为4KB文件发送。因此，每小时的作业最多需要50到1.20分钟来完成流程。我怎么才能让它更快。处理用例的最佳流程是什么？我尝试过使用Mergecontent，但效果并不好。感谢所有人

浏览 1提问于2018-09-22得票数 0

1回答

Apache的onTrigger() AbstractProcessor方法中的零流文件

、

我正在为Apache NiFi开发一个自定义处理器。我已经创建了处理器的nar，并将它放在nifi的lib文件夹中，并启动了nifi。我已经在eclipse中设置了远程调试器，并在onTrigger()的第一行上启用了断点。在调试时，我正在我的nifi管道中一次运行一个处理器。我可以在自定义处理器的输入队列中找到单个流文件，但是我的自定义处理器没有接收到任何流文件。当我启动我的自定义处理器时，它会击中onTrigger()方法中的断点。在此方法中，当我这样做时： public class MyCustomProc extends AbstractProcessor { @Overri

浏览 1提问于2019-05-02得票数 2

1回答

使用Executescript与Javascript合并NiFi中的json流文件

、、

我目前正在尝试合并两个Json文件-一个是嵌套的，另一个是平面的： "ampdata": [ { "nr": "303", "code": "JGJGh4958GH", "Anr": "AVAILABLE", "ability": [ "" ],

浏览 0提问于2018-11-28得票数 0

回答已采纳

2回答

等待所有文件的到来-NiFi

Nifi中是否有处理器等待所有文件到达，然后将这些文件放入HDFS。例如:如果要使用SFTP获取总共5个文件，但我们只接收到3个文件，我希望NiFi等待5个文件到达，然后使用PUTHDFS将这5个文件放入HDFS。谢谢你的答谢

浏览 2提问于2021-09-24得票数 0

回答已采纳

2回答

多个流文件Nifi的单一通知邮件

、

我试图从数据库中复制数据，并使用nifi将其放在S3中。我能够从数据库中复制数据并将其放在S3中。现在，我试图为这个流添加错误处理。我刚为错误通知添加了PutEmail处理器。我只是给了一个错误的桶名来验证电子邮件。这个PutEmail处理器将为每个流文件触发(因为有100个流文件，邮件会触发100次)。我只想在流中出现错误时只触发PutEmail(通知)一次。请对此有任何建议。下面的是流程：任何关于更好(通用)错误处理的建议都将对我有所帮助。

浏览 1提问于2018-03-09得票数 1

回答已采纳

1回答

apache nifi中的批处理流程文件

我已经编写了自定义的nifi处理器，它试图批量处理输入流文件。然而，它的行为似乎并不像预期的那样。下面是正在发生的事情：我复制粘贴在服务器上的一些文件。FethFromServerProcessor从服务器获取这些文件并将其放入queue1中。MyCustomProcessor从queue1批量读取文件。我在batchSize上定义了MyCustomProcessor属性，并在它的onTrigger()方法中，通过以下操作从queue1获得当前批处理中的所有流文件： session.get(context.getProperty(batchSize).asInteger()) onTri

浏览 0提问于2019-04-26得票数 2

回答已采纳

1回答

在nifi中获取源/上游连接的处理器名

、

我想从业务角度监控Nifi中的流文件。因此，我使用python脚本添加了executescript处理器，该脚本创建消息，并在每个处理器之后在elasticsearch中推送相同的消息。我想要这个executescript处理器的父处理器名或id，这样我将在流文件中保持附加，这将允许知道这个流文件通过哪个阶段/处理器，并且我可以在ELK中监视它。

浏览 1提问于2019-03-27得票数 1

回答已采纳

1回答

重命名NiFi flow中的JSON字段

我是NiFi的新手，我的问题可能很简单。我想在流文件中重命名JSON键。例如： {"path":"/home/a/a", "size":"12345"} 我想要转换成 {"filename":"/home/a/a", "size":"12345"} 尝试使用UpdateAttribute，添加一个值为${path}的filename属性，但要么我做错了什么，要么它不打算用于这种操作。如何重命名JSON中的属性？

浏览 8提问于2021-01-26得票数 0

回答已采纳

1回答

如何在nifi中插入批量记录

、、

我是nifi的新手，我正在尝试使用nifi在mysql中进行批量插入，下面是我的示例流程结构。 FetchFile -> ConvertRecord (covert csv to json) -> SplitJson -> EvaluateJsonPath -> routeOnAttribute -> JoltTransformJson (adding new key value pair) -> MergeContent (merge all flowfiles) -> ConvertJsontoSql (converting jso

浏览 133提问于2019-03-12得票数 1

1回答

如何在Apache NiFi的FTP上附加一个JSON文件？

、、

在Apache中，我有一个流，其中NiFi的内容是JSON对象的数组。每个流文件都有一个唯一的filename属性。 // flowfile1: filename: file1.json [ {}, {}, {}, ... ] // flowfile2: filename: file2.json [ {}, {}, {}, ... ] 现在，如果具有给定文件名的文件不存在，我想将这些文件放入FTP服务器。如果这样的文件确实存在，我希望将这两个文件合并在一起(将现有FTP文件中的数组与传入的flowfile中的数组连接起来)，并将更新后的文件放入FTP中。第一种情况(文件还不存在)很简单，

浏览 24提问于2020-06-05得票数 0

1回答

NiFi -并发运行多个数据源摄取管道时发出问题

当多个流文件几乎同时在putSFTP处理器中执行时，文件被放置到错误的目的地。sftp用户名是不同的，来自flow文件属性。第一个流文件转到正确的目标，而其他3个文件转到第一个文件的sftp目的地。我们正在使用Apache NiFi 1.12.1

浏览 11提问于2022-01-26得票数 0

1回答

Nifi中的JSON数组

、

我希望在JSON有效负载中使用作为数组的单个值。请建议采取的办法。请求有效载荷： { "ID": "123456" "Date": “18-02-2019" "ReportLocation" : ["obj1", "obj2", "obj3"…] } 我想传递这些值(obj1，obj2，obj3.)作为属性传递给后续的NIFI处理器。

浏览 3提问于2019-02-18得票数 0

2回答

从ExecuteSQL到PutMarkLogic的XML结果

、

我已经使用XML运行了一个存储过程，结果是一行包含一个名为“ExecuteSQL”的列，该列包含存储过程生成的XML。XML期望传入的FlowFiles内容只包含PutMarkLogic。如何才能将FlowFile内容转换为正确的形式？来自ExecuteSQL的FlowFiles的内容看起来像这样： Objavro.schema�{"type":"record","name":"NiFi_ExecuteSQL_Record","namespace":"any.data","fields&

浏览 8提问于2019-02-15得票数 2

回答已采纳

1回答

在nifi groovy脚本中，提供异常已经被标记为传输。

我有输入有效载荷{"ENV": {"MAC": "6CECEB5D0302","NS": "NM","DATE": "170619","TIME": "114635","PM2.5": "10","PM10": "8.272681196722012"}}。我使用了下面的脚本来创建多个流文件，它运行得很好。但是相同的代码不适用于传输一个流文件。在下面的代码中，基于我想要的if代码，脚本要么

浏览 0提问于2019-10-06得票数 0

3回答

Apache Nifi文件被卡在队列中。

流文件被卡在队列中(按属性进行负载平衡)，下一个下游处理器(MergeRecord和CSVReader和CSVRecordSetWriter)不会读取。从Nifi来看，流文件似乎在队列中，但是当试图列出队列时，它会说“队列没有流文件”。尝试清空队列也会给出确切的消息。Nifi日志没有任何与处理器相关的异常。队列中大约有80个流文件。我试过以下动作项目，但都失败了：重新启动下游和上游(ConvertRecord)处理器。禁用并启用CSVReader和CSVRecordSetWriter。禁用负载平衡。流文件过期设置为3秒。截图: Flowfile： Merg

浏览 0提问于2019-05-09得票数 2

1回答

用PutS3Object缓冲

我简化的Nifi设置是:将ConsumeKafka_2_0处理器转换为PutS3Object处理器。我正在阅读多个主题，主题名包含在S3密钥前缀中。这很好，但是每个FlowFile都存储在一个单独的S3对象中。我如何在每个主题中积累一些FlowFiles？我遇到了MergeContent处理器，但我不确定它是否满足了我的所有需求。应该编写S3对象一段时间后，比如说10分钟在某个大小阈值之后，比如100 say (不管首先发生什么) 按顺序装箱算法可以将FlowFiles按错误的顺序合并，对吗？碎片整理似乎不起作用，但我不知道，我是否做错了什么。

浏览 0提问于2019-07-16得票数 0

1回答

NiFi如何处理突发数据？

如果提交到NiFi的数据不是以稳定的流(而是突发性的)传入的，NiFi如何处理它们？它是否使用消息代理来缓冲它们？我还没有在它的文档中看到过类似的东西。

浏览 1提问于2017-10-27得票数 0

1回答

通过Nifi进行微批处理

、

我有一个场景，我的kafka消息(来自同一主题)流经单个丰富管道，并在最后写入HDFS和MongoDB。我的Kafka consumer for HDFS将每小时运行一次(用于微批处理)。因此，我需要知道根据流文件来自哪个消费者( HDFS消费者或Mongo DB消费者)，将流文件路由到putHDFS和putMongo的最佳方式。或者请建议是否有任何其他方法通过Nifi实现微批处理。谢谢

浏览 1提问于2019-03-22得票数 0

2回答

如何在使用PutElasticSearchRecord处理器时让Nifi动态创建索引

我目前正在使用Apache Nifi将数据推送到Elasticsearch中。数据被发送到单个索引，但我希望根据client_id字段的内容将数据动态路由到不同的索引。我有一个QueryRecord处理器在发送到Elasticsearch或丢弃之前做一些过滤。使用JsonTreeReader和JsonRecordWriter设置QueryProcessor 如何在PutElasticSearchRecord中设置索引设置以使用字段client_id的内容作为索引名？

浏览 7提问于2021-10-01得票数 0

1回答

如何在NIFI QueryDataBaseTable处理器中提取数据进行排序

如何保证NiFi QueryDataBaseTable处理器每次获取增量表时的数据序列。该表有一个名为"SEQNUM“的增量字段。并在QueryDataBaseTable处理器中通过"SEQNUM“设置”最大值列“。有什么方法可以通过获取delta表来排序吗？

浏览 0提问于2018-12-18得票数 0

回答已采纳

1回答

使用NIFI从Kafka插入Cassandra

、、、

我有一个要求阅读巨大的CSV文件从卡夫卡主题到卡桑德拉。我配置了以实现同样的目标。流：用户在Nifi安装程序上没有控件。他只指定CSV所在的URL。web应用程序将URL写入kafka主题。Nifi获取文件并插入Cassandra。我如何知道Nifi已经将CSV文件中的所有行插入Cassandra中？我需要让用户知道插入已经完成。任何帮助都将不胜感激。

浏览 0提问于2016-09-02得票数 1

回答已采纳

2回答

数据流的速率超过了来源记录速率。放慢流量以适应

我使用的是nifi 1.1.0，并且在上面运行了太多的处理器，所以它有太多的负载无法运行。由于负载过大，处理器运行非常慢，我收到一些错误： The rate of the dataflow is exceeding the provenance recording rate. slowing down flow to accommodate. 我在"nifi.properties“文件中更改了起源存储库的存储大小，但没有任何改进。我更改了以下属性： nifi.provenance.repository.max.storage.size = 2 GB 我用谷歌搜索了一下，但没有找到合适的

浏览 2提问于2017-06-23得票数 5

2回答

关于NiFi，如何区分来自两个不同Kakfa的消息？

我有两个不同的应用程序，名为A1和A2。每个应用程序都有自己的Kakfa服务器。来自这两个KAKFA服务器(代理)的消息发送到NiFi。每个Kakfa都有不同的主题名称，基于这个，我可以区分来自Kakfa的消息。但是，除了卡夫卡的主题名称之外，在NiFi中还有其他方法来区分来自两个不同Kakfa的消息吗？他们是否有NiFi处理器来检查主题名，然后决定下一条路线？非常感谢。你好啊，叶什维德

浏览 0提问于2018-12-17得票数 2

回答已采纳

1回答

在NiFi中从QueryDatabaseTable获取执行时间

我使用NiFi中的进程QueryDatabaseTable从DB2中增量地获取数据。QueryDatabaseTable计划每5分钟运行一次。最大值列被设置为"rep“(对应于DB2数据库中的日期)。我有一个单独的MySQL数据库，我想用值"rep“来更新它，QueryDatabaseTable用它来查询DB2数据库。如何获取此值？在日志文件中，我发现FlowFiles的属性不包含此值。

浏览 30提问于2016-07-20得票数 2

1回答

NiFi / FlowFile内存依赖关系

我正在尝试理解NiFi数据流机制。我读到Nifi有包含内容和元数据的flow文件(flow file属性)。所以我想了解一下，如果我把1TB的数据放在边缘节点上，并且想把它传递给Nifi处理器，它会把所有的数据加载到内存中供处理器使用吗？

浏览 6提问于2016-09-10得票数 1

回答已采纳

1回答

PostHTTP无法将数据发送到localhost:3000，因为目的地不接受FlowFiles

、

我是Nifi的新手，我正在尝试做一个PostHttp来将XML/JSON数据发送到nodejs应用程序(它在本地主机上:3000) 我正在使用这个处理器：但是我得到了下一个错误: PostHTTP不能将数据发送到localhost:3000，因为目的地不接受flowfiles，并且这个处理器被配置为交付流文件。我需要使用其他类型的处理器吗？应用程序端，工作正常(我已经尝试过做关于失眠的文章)

浏览 1提问于2018-10-10得票数 0

回答已采纳

1回答

是否使用.bat文件启动数据流？

如何在不访问apache nifi接口的情况下启动我创建的数据流。是否可以通过运行.bat文件来触发run？我是apache nifi的新手，对apache nifi的局限性一无所知。我将数据流保存为模板，并希望在不访问apache nifi界面的情况下启动它。

浏览 0提问于2019-10-27得票数 0

2回答

NiFi使用MergeRecord合并CSV文件

、

我有一个JSON记录流，我用指令成功地将它转换成CSV记录。但是现在我想将这个CSV记录合并到一个CSV文件中。以下是流量：在步骤5中，我将面对大约9K的csv记录，如何使用MergeRecord处理器将其合并为一个csv文件？我的csv头： field1,field2,field3,field4,field5,field6,field7,field8,field9,field10,field11 其中一些字段可能为null，并在记录中有所变化。

浏览 4提问于2018-05-30得票数 3

1回答

Apache : JoltJSONTransform更新JSON列表？，真正的问题:处理器过多

、

首先，感谢您的帮助。我正在使用Apache，将一个FlowFile中的FlowFiles列表转换为多个JSON，每个JSON都有一个JSON。然后，我使用JoltJSONTransform来更新属性(filename)上的键(在json中缺失)。我的问题是这花了我很多时间，因为我正在处理大文件。我的下一个任务是尝试修改JSON列表中的每个元素中的键，然后将其拆分为几个流文件。我的数据是这样的： [ { "number": "1", "pokemon":"Bulbasaur", "type":"

浏览 1提问于2020-01-17得票数 0

1回答

Nifi MergeRecord & MergeContent无法合并具有不同模式的avro flow fiels

、、

我使用NiFi Flow作为ListFile >> FetchFile >> SplitJson >> UpdateAttribute >> FlattenJson >> InferAvroSchema >> ConvertRecord >> MergeRecord >> PutParquet。 Json投入： [{ "Id": 1235, "Username": "fred1235", "Name

浏览 1提问于2018-05-21得票数 1

回答已采纳

1回答

Apache当在大型文件上使用SplitText时，如何使put文件立即写出？

、

我正在读取包含50k行数据的文本文件，其中每一行代表一个完整的记录。我们的Nifi流使用SplitText来处理1000行的批处理文件。(这是在我处理内存问题之前被告知的) 有可能立即执行PutFile吗？当PutFile记录完成后，我希望这些文件就能马上出来，而不仅仅是在队列中等待所有50k+行的数据已经被处理了。如果要分手的话，这么做似乎很愚蠢。我在阅读文档，但我找不到这是否是由设计和不可配置的。感谢任何可以帮助回答/配置我的流程的文档指导。

浏览 2提问于2018-11-05得票数 0

1回答

Apache可以永远等待填充批大小吗？

、、

我试图用ApacheNifi.putElasticSearch处理器将流数据写入elasticsearch， PutElasticSearch具有名为“批处理大小”的属性，当我将此值设置为1时，所有事件都会尽快写入elasticsearch。但如此低的“批次大小”显然不能工作时，负载是高的。因此，为了获得合理的吞吐量，我需要将其设置为1000。我的问题是，PutElasticSearch是否等待到可用事件的批处理大小。如果是，当处理器上有999个事件等待时，它可以等待几个小时。我想了解logstash是如何在elasticsearch输出插件上做同样的工作的。可能有一些基于时间的刷新逻辑

浏览 4提问于2017-06-06得票数 0

回答已采纳

1回答

NiFi:将一个属性合并到流文件的JSON内容中(而不覆盖整个流程文件)

、

我有一个创建一些新属性/内容的流。我希望从流文件中获取一个属性，并将其添加到文件的JSON内容中。我可以使用AttributesToJSON，但这只是覆盖文件内容。下面是我的流程的一个例子： UpdateAttribute将当前时间添加到属性列表中，然后AttributestoJSON向实际的JSON添加一个属性，但也覆盖了整个流文件内容的。我试图用MergeRecord来弥补这个问题，但是我不能将两个文件合并在一起(使用CurrentTime作为关联属性名)。有更好的办法吗？MergeRecord只是出现了一个错误。(也不知道如何配置RecordReader/Writer，因

浏览 0提问于2018-11-07得票数 5

回答已采纳

2回答

PutHiveQL NiFi处理器配置异常慢？

、、

我目前正在设置一个简单的NiFi流，它从关系数据库管理系统源读取并写入Hive接收器。流按照预期的方式工作，直到PuHiveSql处理器运行非常慢。它大约每分钟插入一条记录。当前设置为运行在一个节点上的独立实例。大约每1分钟显示一次插入的日志： (INSERT INTO customer (id, name, address) VALUES (x, x, x)) 知道为什么会这样吗？改进一下吗？提前感谢

浏览 0提问于2019-08-12得票数 1

回答已采纳