腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
在
hdfs
中
存储
小文件
并在
Nifi
Flow
中
对
其
进行
归档
hadoop
、
apache-kafka
、
hdfs
、
apache-nifi
、
execute-script
我有一个
小文件
和
HDFS
的问题。 场景:我正在使用
NiFi
来阅读卡夫卡主题中的消息,这些都是非常小的。要求:将这些原始数据消息
存储
在
HDFS
中
(用于重放功能),...before
对
其
进行
进一步处理。 我一直
在
考虑定期
对
它们使用Hadoop Archive (HAR)。这是我可以通过
Nifi
做的事情吗?“har命令看起来像是命令行的东西,而不是我可以通过
Ni
浏览 11
提问于2020-08-19
得票数 0
回答已采纳
1
回答
恢复
NiFi
项目
apache-nifi
、
minify
然而,我的
NiFi
项目消失了。当我转到http://192.168.1.36:8080/
nifi
/时,我只看到一个空白画布。有没有办法让它复活?
NiFi
安装在/opt/
nifi
-1.10.0/
浏览 34
提问于2021-01-23
得票数 0
回答已采纳
1
回答
用Kafka作为“进入门”将批离线数据加载到DWH环境
中
hadoop
、
apache-kafka
、
hdfs
、
bigdata
如你所见: 有什么想法?
浏览 4
提问于2017-11-16
得票数 1
回答已采纳
1
回答
HDF到HDP数据
存储
hdfs
、
apache-nifi
一种是包含
Nifi
的hdf集群,另一种是包含HDF、Hive等组件的HDP集群。我们正在从文件
中
读取数据,并希望将其放入hdp群集
hdfs
中
。提前感谢
浏览 1
提问于2016-10-28
得票数 0
1
回答
NiFi
合并记录处理器
在
使用ParquetRecordSetWriter时不符合最小
存储
空间大小
apache-nifi
、
avro
、
parquet
我试图
在
NiFi
(1.11.4)
中
构建一个流,该流读取来自AMQ的Avro消息,使用
对
它们
进行
累加,然后将合并的parquet文件写入
HDFS
。问题是,当我试图
在
Merge Record处理器(与AvroReader一起)中使用时--合并的内容永远不会根据最小Bin大小阈值发出--我尝试设置非常低的值--它只是不起作用。我尝试使用AvroRecordSetWriter,然后是PutParquet (或ConvertAvroToParquet) ),并面临另一个问题:如
浏览 3
提问于2020-09-25
得票数 0
1
回答
如何使用结构化流的writestream
进行
重新分区的文件写入?
apache-spark
、
pyspark
、
spark-streaming
、
spark-structured-streaming
我有一个结构化的流代码,从Kafka读取数据,并转储到
HDFS
。
在
转储数据时,我以三列为基础对数据
进行
分区。我面临的问题是
在
批处理过程中生成了许多
小文件
。我希望
在
每个partitionBy的批处理过程
中
只生成一个文件。我不确定在这种情况下如何应用重新分区,因为它似乎不起作用。.option("checkpointLocation", self.checkpoint_location) \ .option('p
浏览 16
提问于2019-12-11
得票数 0
回答已采纳
1
回答
Nifi
内容
存储
库未清理,并随着时间的推移不断累积
apache-nifi
Nifi
内容
存储
库
在
重新启动后的一段时间内与
Nifi
状态栏同步工作,
Nifi
版本1.9.1。在那之后,它开始逐渐增长,只有
在
重新启动时才会再次下降。我混合了
小文件
和大文件,并且正在合并文件以
在
流
中
创建大文件。我可能遇到了一个错误,https://issues.apache.org/jira/browse/
NIFI
-6150可能在下面提到的三种情况下都不起作用: 1)既
浏览 23
提问于2020-05-02
得票数 3
1
回答
Apache
NiFi
调优问题
performance
、
apache-nifi
我已经开发了一个用于
HDFS
中
数据摄取的
NiFi
流原型。现在我想要提高整体表现,但我似乎真的无法向前迈进。 流接收输入csv文件(每行有80个字段),在行级别拆分它们,将一些转换应用到字段(使用4个自定义处理器依次执行),将新行缓冲到csv文件
中
,并将它们输出到
HDFS
中
。我开发处理器的方式是,在读取每个记录并将其字段移动到
flow
文件属性时,只访问流文件的内容一次。
在
amazon m4.4xlarge实例(16核EC2,64 GB )上
进
浏览 4
提问于2016-09-27
得票数 5
回答已采纳
1
回答
从har档案
中
查询数据- Apache Hive
hadoop
、
hive
、
partitioning
、
hadoop-archive
我正在使用Hadoop,并面临着大量
小文件
的可怕问题。我需要能够从现有的蜂巢分区
中
创建har档案,并同时查询它们。然而,Hive显然只支持
在
托管表
中
存档分区,而不支持在外部表
中
存档--这是非常可悲的。我试图通过使用hadoop的
归档
工具手动
归档
分区目录
中
的文件来找到解决办法。现在,我需要配置hive,以便能够查询
存储
在这些
归档
文件
中
的数据,以及
存储
在其他分区目录
中
浏览 3
提问于2016-06-03
得票数 1
回答已采纳
1
回答
NiFi
在
处理器之间传输数据
apache-nifi
首先,我需要从REST服务
中
获取accountIds,然后使用接收到的值创建新的HTTP请求来获取令牌,然后使用这个令牌来创建一些带有Oauth2的请求。 ? 这个数字我应该放到下一个getToken
中
作为GET参数之一(
在
屏幕截图上我硬编码了这个): ? ? 这将返回一个令牌。Token是一个text/plain;charset=UTF-8。然后,我想再次使用InvokeHttp,添加属性Authorization并添加到此属性Bearer + received token
中
。我真的不知道如何在以
浏览 33
提问于2020-12-10
得票数 1
回答已采纳
1
回答
当我使用FileSystem.get(URI.create("
hdfs
://loacalhost:9000/filepath"),conf时发生了什么?
hadoop
、
hbase
、
bigdata
、
rpc
在
一个需要我优化
HDFS
小文件
支持的项目中,我感到困惑。
其
步骤如下:
hdfs
fs -put ~/local/smallfile /usr/s
浏览 0
提问于2015-05-31
得票数 0
1
回答
如何为Kerberized集群配置Apache
NiFi
hive
、
kerberos
、
cloudera
、
hortonworks-data-platform
、
apache-nifi
我让Apache
NiFi
独立运行,运行良好。但是,当我尝试设置Apache
NiFi
来访问Hive或
HDFS
时, Kerberized集群。我有问题了。有人能指导我设置
HDFS
/Hive/HBase (与Kerberos一起)的文档吗?下面是我
在
nifi
.properties
中
给出的配置
nifi
.kerberos.krb5.file=/etc/krb5.conf
nifi</
浏览 4
提问于2016-12-23
得票数 3
2
回答
用spark保存和处理大量
小文件
hadoop
、
apache-spark
、
hdfs
、
amazon-emr
我有一些问题,如何处理和如何保存大量的
小文件
(pdf和ppt/pptx)的火花,
在
EMR集群。我的目标是将数据(pdf和pptx)保存到
HDFS
(或集群
中
的某种类型的数据
存储
中
),然后从spark中提取该文件的内容,并将其保存在elasticsearch或关系数据库
中
。
在
HDFS
中保存数据时,我读过
小文件
的问题。保存大量pdf & pptx文件(maxim 100-120MB)的最佳方法是什么?我读
浏览 12
提问于2016-12-09
得票数 3
回答已采纳
2
回答
Spark流到配置单元,每个分区有太多
小文件
apache-spark
、
hadoop
、
hive
、
apache-kafka
、
spark-streaming
此作业读取Kafka主题,创建一个数据集,
并在
其上应用模式,然后将这些记录插入到Hive表
中
。Spark作业
在
配置单元分区
中
为每个批处理间隔创建一个文件,如下所示:我正在寻找有效的方法来做一个后期处理,合并所有这些
小文件
,并创建一个大文件。 如果有人以前做过,请分享你的想法。
浏览 0
提问于2018-03-20
得票数 2
4
回答
是否将多个文件
存储
在
单个块
中
?
hadoop
、
hdfs
当我将许多
小文件
存储
到
HDFS
中
时,它们是否会
存储
在
单个数据块
中
? 在我看来,根据下面的讨论,这些
小文件
应该
存储
到单个块
中
:
浏览 0
提问于2014-01-22
得票数 4
1
回答
将外部数据
存储
到
NiFi
注册表
中
apache-nifi
、
apache-nifi-registry
是否可以使用REST将外部数据(而不是
NiFi
流)
存储
到
NiFi
注册表
中
? 据我所知,
NiFi
注册表是为
NiFi
流的版本化而设计的。但我想知道它是否能够将其他数据
存储
到
NiFi
注册表
中
,并根据版本检索它。
浏览 0
提问于2018-07-03
得票数 3
回答已采纳
1
回答
如何使用状态更新从dev到prod的流
apache-nifi
我有一个
nifi
流,它保持了ListS3处理器的一些状态。我有一个dev实例和一个prod实例。我想要一些从dev部署到prod的选项,其中保存了状态,并且我不必手动进入并更改所有处理器和进程组。基于以下堆栈溢出问题: how does
NIFI
listfile maintains its timestamp? 编辑:为了避免误解,我希望
在
部署时保持prod状态。
浏览 14
提问于2021-03-19
得票数 0
回答已采纳
1
回答
为什么Apache
NiFi
MergeRecords处理器没有按照配置合并记录数?
java
、
apache-nifi
需求是以一定的间隔将这些消息
存储
到
HDFS
中
。因为我们要
存储
到
HDFS
中
,所以我们希望将这些记录
中
的某些数量合并到单个文件
中
。根据
NiFi
,我们为此使用了处理器。这些都是基于相同的模式(它们是从一个卡夫卡主题中挑选的) 预期行为 对于上述配置,预期MergeRecords应该
对
其中一个阈
浏览 1
提问于2019-03-28
得票数 2
2
回答
Apache和
Nifi
集成
apache-spark
、
apache-nifi
我想将
Nifi
流文件发送到Spark,
并在
Spark中
进行
一些转换,然后再次将结果发送回
Nifi
,以便我能够
在
Nifi
中进一步操作。我不想写流文件写到数据库或
HDFS
,然后触发火花作业。我试过
在
Nifi
中使用ExecuteSparkInteractive处理器,但我被卡住了。任何例子都会有帮助。
浏览 1
提问于2018-10-31
得票数 8
回答已采纳
1
回答
NiFi
/
Flow
文件移动处理程序
apache-nifi
我一直
在
阅读关于
NiFi
的文章,很少有疑问。考虑一个用例,其中我希望将数据从本地迁移到
HDFS
中
。我将使用getFile和putHDFS处理器。因此,当我将location传递给getFile时,它将获取数据并转移到内容
存储
库
中
,而且它将传递给putHDFS处理器
进行
摄取。问题: 如何将数据从内容回购移到
HDFS
?
浏览 7
提问于2016-09-11
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券