腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如
何在
HDFS
上
使用
SparkStreaming
时
获取
文件名
apache-spark
、
spark-streaming
我想在
HDFS
上
收听文件更新,我可以通过以下方式
获取
输入流我可以同时获得新文件的
文件名
字符串吗
浏览 15
提问于2016-09-09
得票数 0
3
回答
火花流无法读取从
hdfs
中的水槽中创建的文件
hadoop
、
apache-spark
、
hdfs
、
spark-streaming
、
flume-ng
我创建了一个实时应用程序,在这个应用程序中,我
使用
flume从weblog中将数据流写入
hdfs
,然后
使用
火花流处理该数据。但是,尽管flume正在
hdfs
中编写和创建新文件,但spark流无法处理这些文件。如果我
使用
put命令将这些文件放到
hdfs
目录中,火花流就能够读取和处理这些文件。
浏览 9
提问于2015-06-09
得票数 2
回答已采纳
1
回答
HDFS
中块的原始
文件名
hadoop
、
hdfs
有人知道如
何在
hdfs
中获得块的原始
文件名
吗?我正在尝试写一个BlockReplacementPolicy。当第一次写入文件
时
,我可以
使用
srcPath参数来
获取
文件名
。但是,当复制下的块再次被复制
时
,我相信srcPath不会解决我的问题。提前谢谢!
浏览 3
提问于2014-01-29
得票数 1
回答已采纳
1
回答
获取
执行者任务在pyspark中的任务id
python
、
apache-spark
、
pyspark
some_function函数将executor中当前任务的数据写入所有executor通用位置的文件(
如
hdfs
或s3 bucket)。现在,如果我在所有的执行器中
使用
相同的
文件名
,那么这个文件就会被替换,只剩下最后一个写入的文件。因此,我正在寻找一个唯一的标识符来表示每个任务,从而表示每个
文件名
。但是在任何地方都找不到,如
何在
pyspark中
获取
任务ID。我在scala/java中找到了一些,但在pyspark中找不到。 更新:按照建议,我查看了。然而,当
浏览 0
提问于2018-05-05
得票数 2
2
回答
获取
HDFS
中的最新更新文件
bash
、
shell
、
unix
、
hadoop
我想要我的
HDFS
目录中的最新更新文件。代码基本
上
应该循环遍历目录和子目录,并
获取
带有
文件名
的最新文件路径。我能够在本地文件系统中
获取
最新文件,但不确定如何为
HDFS
one执行此操作。我可以从
HDFS
获取
日期、时间和
文件名
,但是如何
使用
这3个参数
获取
最新文件?
浏览 1
提问于2016-01-09
得票数 10
回答已采纳
1
回答
如
何在
hadoop中按年/日/
时
创建文件夹
hadoop
、
hdfs
我有问题,如
何在
hadoop中创建文件夹,但命名路径文件夹的年,日期,时间?示例:/user/
hdfs
/2015/10/10/0000 hadoop fs -mkdir /user/
hdfs
/2015/10如何
使用
hadoop fs -mkdir
获取
路径文件夹,
如
/user/
hdfs</e
浏览 3
提问于2015-10-22
得票数 1
1
回答
来自NiFi的锁定文件
hdfs
、
apache-storm
、
apache-nifi
在尝试
使用
storm
HDFS
spout
时
,我让Apache Nifi将文件移动到
HDFS
目录,风暴正在监听该目录,但一旦apache nifi开始移动该文件,storm就会感知到该文件并开始处理,注意到该文件尚未完全移动我尝试
使用
conf.put(Configs.IGNORE_SUFFIX, ignoreSuffix)和apache nifi updateAttribute将文件重命名为.ignore我需要在完全移动之后再重命名该文件
浏览 0
提问于2018-09-17
得票数 0
回答已采纳
1
回答
如何
使用
bash在
HDFS
中列出一行包含元数据的文件?
bash
、
hadoop
、
hdfs
我正在编写一个bash脚本,用于扫描
HDFS
并处理输出。
使用
以下命令可以轻松
获取
文件名
: echo $line
使用
相同的方法,但没有-C标志,它给出元数据,但不是只在一行
上
:-rw-rw-r--+
hdfs
34448169 2020-05-
浏览 7
提问于2020-05-14
得票数 0
回答已采纳
1
回答
无法获得
文件名
问题的VFS文件对象
apache
、
hadoop
、
hdfs
、
pentaho
我对hadoop很陌生,我
使用
apache hadoop 1.0.3和redhat linux 6.0 vm,当我试图从本地windows 7加载一个示例文件到Hadoop '
HDFS
‘文件系统
时
,我
使用
了url:中的示例指南,但是在运行作业
时
我得到了以下错误:** 请帮我解决这个问题,
浏览 0
提问于2014-12-09
得票数 0
1
回答
根据日志级别写入
HDFS
hadoop
、
log4j
、
hdfs
、
apache-kafka
、
apache-storm
我正在
使用
HDFS
bolt将日志消息写入
HDFS
。现在,所有具有不同日志级别的日志消息,
如
WARN、DEBUG、INFO、ERROR都写入到同一个文件中。在
HDFS
中,如
何在
一个文件中写入INFO消息,在另一个文件中写入警告消息,在另一个文件中单独写入错误消息?我正在
使用
log4j Kafka附加器。基本
上
,我需要根据日志级别将日志消息写入不同的文件,
如
INFO、ERROR和DEBUG。
浏览 2
提问于2016-02-17
得票数 0
6
回答
使用
python从
HDFS
获取
文件名
列表
python
、
hadoop
我搜索了一些关于如何开始
使用
hadoop和python的教程,但没有取得多少成功。我还不需要对映射器和还原器做任何工作,但这更像是一个访问问题。作为Hadoop集群的一部分,
HDFS
上有一堆.dat文件。如
何在
HDFS
上
查询
文件名
?
浏览 28
提问于2015-09-03
得票数 8
回答已采纳
1
回答
HdfsSink3Connector可以创建副本吗?
apache-kafka
、
hdfs
、
apache-kafka-connect
、
confluent-platform
还是在
HDFS
中留下损坏的/部分文件? 请帮我处理这个。
浏览 3
提问于2021-07-03
得票数 0
1
回答
在AWS中重命名和移动星火输出文件需要非常长的时间
apache-spark
、
amazon-s3
、
amazon-emr
、
s3distcp
问题是在火花作业之后,这个过程只在核心节点
上
运行,所以需要很长的时间。 我就是这么做的。我可以
使用
shell命令活动来读取、重命名和复制吗?
浏览 2
提问于2018-04-11
得票数 0
1
回答
修复损坏的
HDFS
文件而不丢失数据( datanode中的文件仍然存在)
hadoop
、
hdfs
我们有一个
HDFS
文件系统,namenode在一个服务器
上
(这个服务器名为0002),datanode在另外两个服务器
上
(这两个服务器分别名为0004和0005 )。原始数据来自Flume应用程序,并
使用
Flume中的"Sink“作为
HDFS
。Flume会将原始数据(txt文件)写入服务器0004和0005
上
的datanode。在这种情况下,原始数据仍然保存在0004和0005服务器
上
,但是namenode(0002)
上
的元数据信息会丢失。数
浏览 1
提问于2021-01-08
得票数 1
1
回答
流文件火花中的流口水
java
、
apache-spark
、
hadoop
、
spark-streaming
、
drools
我们能够成功地将drools与spark集成在一起,当我们尝试从Drools中应用规则
时
,我们可以对批处理文件进行处理,这是在
HDFS
中存在的,但是我们尝试
使用
drools进行流文件,以便我们能够立即做出决定/sample.dat"); store = javaRDD.collect(); 案例2:
使用
流上下文
时
的SparkConf sparkconf =
浏览 2
提问于2015-02-09
得票数 5
2
回答
HBase WAL文件和
HDFS
数据暂存
hadoop
、
hbase
、
hdfs
我不明白的是WAL是如
何在
HDFS
之上实现的? 创建文件的客户端请求不会立即到达NameNode。实际
上
,最初
HDFS
客户端将文件数据缓存到一个临时本地文件中。当本地文件累积超过一个
HDFS
块大小的数据
时
,客户端将与NameNode联系。NameNode将
文件名
插入文件系统层次结构并为其分配数据块。NameNode
使用
DataNode和目标数据块的标识来响应客户端请求。然后,客户端将数据块从本地临时文件刷新到指定
浏览 5
提问于2015-09-24
得票数 4
1
回答
Hadoop - copyFromLocal内部工作流程?
hadoop
、
hdfs
当我们发出像copyFromLocal或put这样的命令来将数据从客户端拷贝到
HDFS
时
,这个过程实际
上
是如何工作的?我在
HDFS
架构中读到,客户端将与Namenode联系以
获取
datanode列表,然后进行连接并传输数据。 有没有其他方法或任何方法可以让它更快?哪些类正在调用此行为,
如
检查datanode列表等?
浏览 1
提问于2012-10-15
得票数 0
1
回答
来自
HDFS
集群的ListFiles
java
、
hadoop
现在,我正在尝试访问hadoop集群(
HDFS
),并从客户端eclipse检索文件列表。在hadoop客户端上设置所需的配置之后,我可以执行以下操作。我可以执行从客户端访问
HDFS
的copyFromLocalFile,copyToLocalFile操作。这是我面临的问题。当我给出listFiles()方法
时
,我得到org.apache.hadoop.fs.LocatedFileStatus@b7aa29bfPropert
浏览 1
提问于2012-07-09
得票数 6
回答已采纳
1
回答
可以
使用
StreamSets将数据提取到本地系统吗?
hadoop
、
cloudera
、
cloudera-cdh
、
streamsets
我们的团队正在探索
HDFS
到本地数据
获取
的选项。我们被建议
使用
StreamSets,而团队中没有人对此有任何想法。有人能帮助我理解这是否符合我们的要求,即从
HDFS
获取
数据到我们的本地系统吗?例如,在本地ip: xxx.xx.x.xx:18630
上
,它在一台机器上工作得很好。但是当我试图从网络
上
的其他机器访问这个URL
时
,它就不起作用了。而我的另一个应用程序,
如
闪亮服务器等,在相同的机制下工作得很好。
浏览 0
提问于2018-07-26
得票数 1
回答已采纳
2
回答
在Apache Nifi中将TimeLine添加到文件
时
出错
apache-nifi
我
使用
的是HDP 2.5。我尝试为位于
HDFS
文件中的文件添加时间。为此,我
使用
GetHDFS->UpdateAttribute->PutHDFS。首先,我通过GetHDFS处理器从
HDFS
获取
文件,然后在UpdateAttribute中通过添加属性来改变文件的格式。“ 在这个阶段,我有一个问题,例如,如果目标文件夹(在${filename}.
浏览 0
提问于2017-10-10
得票数 0
点击加载更多
相关
资讯
SparkStreaming&Kafka——Receiver方式
必读:再讲Spark与kafka 0.8.2.1+整合
Spark Streaming和Flink 谁是数据开发者的最爱?
Hadoop HDFS操作
从入门到精通-Fayson带你玩转CDH
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券