如何在HDFS上使用SparkStreaming时获取文件名

文章/答案/技术大牛

发布

1回答

apache-spark、spark-streaming

我想在HDFS上收听文件更新，我可以通过以下方式获取输入流我可以同时获得新文件的文件名字符串吗

浏览 15提问于2016-09-09得票数 0

3回答

火花流无法读取从hdfs中的水槽中创建的文件

hadoop、apache-spark、hdfs、spark-streaming、flume-ng

我创建了一个实时应用程序，在这个应用程序中，我使用flume从weblog中将数据流写入hdfs，然后使用火花流处理该数据。但是，尽管flume正在hdfs中编写和创建新文件，但spark流无法处理这些文件。如果我使用put命令将这些文件放到hdfs目录中，火花流就能够读取和处理这些文件。

浏览 9提问于2015-06-09得票数 2

回答已采纳

1回答

HDFS中块的原始文件名

hadoop、hdfs

有人知道如何在hdfs中获得块的原始文件名吗？我正在尝试写一个BlockReplacementPolicy。当第一次写入文件时，我可以使用srcPath参数来获取文件名。但是，当复制下的块再次被复制时，我相信srcPath不会解决我的问题。提前谢谢！

浏览 3提问于2014-01-29得票数 1

回答已采纳

1回答

some_function函数将executor中当前任务的数据写入所有executor通用位置的文件(如hdfs或s3 bucket)。现在，如果我在所有的执行器中使用相同的文件名，那么这个文件就会被替换，只剩下最后一个写入的文件。因此，我正在寻找一个唯一的标识符来表示每个任务，从而表示每个文件名。但是在任何地方都找不到，如何在pyspark中获取任务ID。我在scala/java中找到了一些，但在pyspark中找不到。更新:按照建议，我查看了。然而，当

浏览 0提问于2018-05-05得票数 2

2回答

获取HDFS中的最新更新文件

bash、shell、unix、hadoop

我想要我的HDFS目录中的最新更新文件。代码基本上应该循环遍历目录和子目录，并获取带有文件名的最新文件路径。我能够在本地文件系统中获取最新文件，但不确定如何为HDFS one执行此操作。我可以从HDFS获取日期、时间和文件名，但是如何使用这3个参数获取最新文件？

浏览 1提问于2016-01-09得票数 10

回答已采纳

1回答

如何在hadoop中按年/日/时创建文件夹

hadoop、hdfs

我有问题，如何在hadoop中创建文件夹，但命名路径文件夹的年，日期，时间？示例：/user/hdfs/2015/10/10/0000 hadoop fs -mkdir /user/hdfs/2015/10如何使用hadoop fs -mkdir获取路径文件夹，如/user/hdfs</e

浏览 3提问于2015-10-22得票数 1

1回答

来自NiFi的锁定文件

hdfs、apache-storm、apache-nifi

在尝试使用storm HDFS spout时，我让Apache Nifi将文件移动到HDFS目录，风暴正在监听该目录，但一旦apache nifi开始移动该文件，storm就会感知到该文件并开始处理，注意到该文件尚未完全移动我尝试使用conf.put(Configs.IGNORE_SUFFIX, ignoreSuffix)和apache nifi updateAttribute将文件重命名为.ignore我需要在完全移动之后再重命名该文件

浏览 0提问于2018-09-17得票数 0

回答已采纳

1回答

如何使用bash在HDFS中列出一行包含元数据的文件？

bash、hadoop、hdfs

我正在编写一个bash脚本，用于扫描HDFS并处理输出。使用以下命令可以轻松获取文件名： echo $line使用相同的方法，但没有-C标志，它给出元数据，但不是只在一行上：-rw-rw-r--+hdfs34448169 2020-05-

浏览 7提问于2020-05-14得票数 0

回答已采纳

1回答

无法获得文件名问题的VFS文件对象

apache、hadoop、hdfs、pentaho

我对hadoop很陌生，我使用apache hadoop 1.0.3和redhat linux 6.0 vm，当我试图从本地windows 7加载一个示例文件到Hadoop 'HDFS‘文件系统时，我使用了url:中的示例指南，但是在运行作业时我得到了以下错误：** 请帮我解决这个问题，

浏览 0提问于2014-12-09得票数 0

1回答

根据日志级别写入HDFS

hadoop、log4j、hdfs、apache-kafka、apache-storm

我正在使用HDFS bolt将日志消息写入HDFS。现在，所有具有不同日志级别的日志消息，如WARN、DEBUG、INFO、ERROR都写入到同一个文件中。在HDFS中，如何在一个文件中写入INFO消息，在另一个文件中写入警告消息，在另一个文件中单独写入错误消息？我正在使用log4j Kafka附加器。基本上，我需要根据日志级别将日志消息写入不同的文件，如INFO、ERROR和DEBUG。

浏览 2提问于2016-02-17得票数 0

6回答

使用python从HDFS获取文件名列表

python、hadoop

我搜索了一些关于如何开始使用hadoop和python的教程，但没有取得多少成功。我还不需要对映射器和还原器做任何工作，但这更像是一个访问问题。作为Hadoop集群的一部分，HDFS上有一堆.dat文件。如何在HDFS上查询文件名？

浏览 28提问于2015-09-03得票数 8

回答已采纳

1回答

HdfsSink3Connector可以创建副本吗？

apache-kafka、hdfs、apache-kafka-connect、confluent-platform

还是在HDFS中留下损坏的/部分文件？请帮我处理这个。

浏览 3提问于2021-07-03得票数 0

1回答

在AWS中重命名和移动星火输出文件需要非常长的时间

apache-spark、amazon-s3、amazon-emr、s3distcp

问题是在火花作业之后，这个过程只在核心节点上运行，所以需要很长的时间。我就是这么做的。我可以使用shell命令活动来读取、重命名和复制吗？

浏览 2提问于2018-04-11得票数 0

1回答

修复损坏的HDFS文件而不丢失数据( datanode中的文件仍然存在)

hadoop、hdfs

我们有一个HDFS文件系统，namenode在一个服务器上(这个服务器名为0002)，datanode在另外两个服务器上(这两个服务器分别名为0004和0005 )。原始数据来自Flume应用程序，并使用Flume中的"Sink“作为HDFS。Flume会将原始数据(txt文件)写入服务器0004和0005上的datanode。在这种情况下，原始数据仍然保存在0004和0005服务器上，但是namenode(0002)上的元数据信息会丢失。数

浏览 1提问于2021-01-08得票数 1

1回答

流文件火花中的流口水

java、apache-spark、hadoop、spark-streaming、drools

我们能够成功地将drools与spark集成在一起，当我们尝试从Drools中应用规则时，我们可以对批处理文件进行处理，这是在HDFS中存在的，但是我们尝试使用drools进行流文件，以便我们能够立即做出决定/sample.dat"); store = javaRDD.collect(); 案例2:使用流上下文时的SparkConf sparkconf =

浏览 2提问于2015-02-09得票数 5

2回答

HBase WAL文件和HDFS数据暂存

hadoop、hbase、hdfs

我不明白的是WAL是如何在HDFS之上实现的？创建文件的客户端请求不会立即到达NameNode。实际上，最初HDFS客户端将文件数据缓存到一个临时本地文件中。当本地文件累积超过一个HDFS块大小的数据时，客户端将与NameNode联系。NameNode将文件名插入文件系统层次结构并为其分配数据块。NameNode使用DataNode和目标数据块的标识来响应客户端请求。然后，客户端将数据块从本地临时文件刷新到指定

浏览 5提问于2015-09-24得票数 4

1回答

Hadoop - copyFromLocal内部工作流程？

hadoop、hdfs

当我们发出像copyFromLocal或put这样的命令来将数据从客户端拷贝到HDFS时，这个过程实际上是如何工作的？我在HDFS架构中读到，客户端将与Namenode联系以获取datanode列表，然后进行连接并传输数据。有没有其他方法或任何方法可以让它更快？哪些类正在调用此行为，如检查datanode列表等？

浏览 1提问于2012-10-15得票数 0

1回答

来自HDFS集群的ListFiles

java、hadoop

现在，我正在尝试访问hadoop集群(HDFS)，并从客户端eclipse检索文件列表。在hadoop客户端上设置所需的配置之后，我可以执行以下操作。我可以执行从客户端访问HDFS的copyFromLocalFile，copyToLocalFile操作。这是我面临的问题。当我给出listFiles()方法时，我得到org.apache.hadoop.fs.LocatedFileStatus@b7aa29bfPropert

浏览 1提问于2012-07-09得票数 6

回答已采纳

1回答

可以使用StreamSets将数据提取到本地系统吗？

hadoop、cloudera、cloudera-cdh、streamsets

我们的团队正在探索HDFS到本地数据获取的选项。我们被建议使用StreamSets，而团队中没有人对此有任何想法。有人能帮助我理解这是否符合我们的要求，即从HDFS获取数据到我们的本地系统吗？例如，在本地ip: xxx.xx.x.xx:18630上，它在一台机器上工作得很好。但是当我试图从网络上的其他机器访问这个URL时，它就不起作用了。而我的另一个应用程序，如闪亮服务器等，在相同的机制下工作得很好。

浏览 0提问于2018-07-26得票数 1

回答已采纳

2回答

在Apache Nifi中将TimeLine添加到文件时出错

apache-nifi

我使用的是HDP 2.5。我尝试为位于HDFS文件中的文件添加时间。为此，我使用GetHDFS->UpdateAttribute->PutHDFS。首先，我通过GetHDFS处理器从HDFS获取文件，然后在UpdateAttribute中通过添加属性来改变文件的格式。“ 在这个阶段，我有一个问题，例如，如果目标文件夹(在${filename}.

浏览 0提问于2017-10-10得票数 0

点击加载更多