pytorch读取hdfs文件_pytorch hdfs_直接从HDFS读取文件 - 腾讯云开发者社区

、、

我的var/log/hadoop-hdfs/hdfs-audit.log位于namenode上的本地位置，并由head /var/log/hadoop-hdfs/hdfs-audit.log访问。我的数据文件是由hdfs dfs -ls /访问的，而审计文件可以通过cd写入。现在我可以在java中访问我的hdfs文件，但是每次我尝试fs.getLocal(conf)的时候，我都会得到我电脑上的本地文件，而不是namenode上的本地文件。下面的代码用于获取data下的所有文件和目录。 public class HdfsAuditLogParser { private final S

浏览 10提问于2019-09-14得票数 2

1回答

Flume-ng:将日志文件从本地复制到HDFS的源路径和类型

、、、、

我正在尝试使用local将一些日志文件从HDFS复制到flume-ng。source是/home/cloudera/flume/weblogs/，sink是hdfs://localhost:8020/flume/dump/。cron作业将把日志从tomcat服务器复制到/home/cloudera/flume/weblogs/，并且我希望记录要复制到HDFS的文件，因为这些文件可以在/home/cloudera/flume/weblogs/中使用flume-ng。下面是我创建的conf文件： agent1.sources= local agent1.channels= MemChannel a

浏览 1提问于2016-03-23得票数 0

回答已采纳

1回答

何时可以读取新创建的HDFS文件？

创建HDFS文件涉及几件事，元数据，分配数据块，复制数据块。我的问题是，什么时候可以读取文件？是否需要等到所有数据块完全复制完毕？在我的HDFS日志中，我注意到HDFS首先为我的mapreduce临时文件分配了块： org.apache.hadoop.hdfs.StateChange: BLOCK* allocate blk_1073743864_3041, replicas=10.206.36.220:9866, 10.206.37.92:9866, 10.206.36.186:9866, 10.206.36.246:9866, 10.206.38.104:9866, 10.206.37

浏览 19提问于2019-09-28得票数 0

1回答

如何迭代目录中的每个输入文件，并使用这些文件中的值，我们可以生成单独的输出文件。

、、、、

我在hdfs目录中有一些输入文件。我需要读取特定代码的每个文件，并为hdfs路径本身中的每个输入文件生成输出文件。我尝试使用一个'for循环‘，但是它只占用整个目录一次，然后为所有源文件生成一个输出文件。这是我试过的密码：- #!/bin/ksh hdfs_input='inputfilepath/' for i in "${hdfs_input}"* do hdfs dfs -cp ${hdfs_input}* ${hdfs_path}/new_dir/ #extracts generation code done 运行代码后，hdfs

浏览 1提问于2021-11-15得票数 0

1回答

使用rhdfs库读取HDFS时的大小问题

、

我试图使用rhdfs库从R读取一些HDFS文件(csv文本)。我使用以下代码： hdfs.init() f = hdfs.file(hdfspath,"r") m = hdfs.read(f) > object.size(m) 131112 bytes 当我检查从HDFS读取的对象的大小时，就会出现这个问题。我只读取HDFS文件系统中的一小部分记录。不管原始HDFS文件的大小如何，我只得到131112字节(或大约2^17字节)。我尝试过更改缓冲区大小参数，但没有成功。是否有任何应该设置的特定参数？我在这里发现了一个类似的问题，但没有答案。任何提示都将不胜感激。

浏览 0提问于2016-07-04得票数 0

回答已采纳

1回答

如何将camel hdfs区块聚合为临时文件并从中读取

、、

我有一个使用camel HDFS组件从hdfs读取文件的路由。camel HDFS组件以块的形式读取文件。那么，如何聚合所有块并写入文件或任何其他输出源。这样，拆分器就可以使用\n来逐条读取提取记录并执行进一步处理。这里的HDFS文件很大。

浏览 5提问于2015-09-10得票数 0

1回答

如何在HBase中读取数据？

、

我们知道HBase部署在Hadoop和HDFS之上。另外，我们知道当我们想从HDFS读取文件(或记录)时，使用HDFS CLI需要相当长的时间。但是即使HBase使用HDFS，它也能够在几毫秒内读取密钥。这是怎么发生的？

浏览 0提问于2019-06-21得票数 1

回答已采纳

2回答

了解Hadoop文件系统计数器

、、、、

我想了解hadoop中的文件系统计数器。下面是我运行的一个作业的计数器。在我运行的每个作业中，我观察到Map文件读取的字节数几乎等于HDFS读取的字节数。我观察到，映射程序写入的文件字节是映射器读取的文件字节和hdfs字节的总和。请帮帮我！本地文件和hdfs是否正在读取相同的数据，并且映射阶段是否将两者都写入本地文件系统？ Map FILE_BYTES_READ 5,062,341,139 HDFS_BYTES_READ 4,405,881,342 FILE_BYTES_WRITTEN 9,309,466,96

浏览 5提问于2013-05-19得票数 4

4回答

直接从HDFS读取文件

、

有没有一种方法可以通过使用HDFS路径直接从HDFS读取任何文件格式，而不必从HDFS本地拉出文件并读取它。

浏览 32提问于2017-05-23得票数 3

回答已采纳

1回答

Pyarrow 0.15.1上传空文件到HDFS

、、

您好，我正在尝试使用pyarrow文件系统接口中的upload方法将csv文件上载到我的HDFS群集： import pyarrow as pa fs = pa.hdfs.connect(host, port, user) with open('test.csv') as f: pa.hdfs.HadoopFileSystem.upload(fs, '/data/test.csv', f) 由于某种原因，这总是将带有0B的空文件上载到pyarrow版本0.15.1中的HDFS。但是，当降级到pyarrow版本0.10.0时，文件可以正确上载。我使用的是

浏览 14提问于2019-11-22得票数 2

回答已采纳

1回答

flume假脱机目录重命名文件.completed甚至在flume代理开始假脱机之前

、

我有我有冲水剂如下 agent1.sources = Weather agent1.sources.Weather.type = spooldir agent1.sources.Weather.spoolDir = /Weather/Docs agent1.sources.Weather.channels = MemChannel agent1.channels = MemChannel agent1.channels.MemChannel.type = memory agent1.channels.MemChannel.capacity = 10000 agent1.channels.Mem

浏览 0提问于2015-04-13得票数 0

2回答

在HDFS中处理总大小为100 in的多个小文件

、

我的项目中有一个使用.txt处理多个PySpark消息文件的要求。文件从本地dir移动到HDFS路径(hdfs://messageDir/..)使用批处理和每批处理，我可以看到几千个.txt文件，它们的总大小约为100 is。几乎所有的文件都小于1MB。我可以知道HDFS如何存储这些文件并执行拆分吗？因为每个文件都小于1MB(小于64/128 MB的HDFS块大小)，所以我认为不会发生任何分裂，但是文件将被复制并存储在3个不同的数据节点中。当我使用Spark读取HDFS目录中的所有文件时(hdfs://messageDir/.)使用像*.txt这样的外卡匹配，如下所示： rdd = sc.

浏览 2提问于2018-10-21得票数 0

回答已采纳

1回答

pydoop cp方法-如何指定关键字参数“错误”

、、

我使用pydoop在hdfs位置之间复制文件。pydoop.hdfs.cp(src_hdfs_path，dest_hdfs_path，**kwargs)方法文档位于此页面上。根据文档，关键字参数与open()函数相同。所以我尝试了下面的代码 import pydoop.hdfs as hdfs hdfs.cp(srcpath, destpath, errors='ignore') 如果目标路径中不存在该文件，则代码可以工作。否则，将给出一个文件已经存在的错误。换句话说，错误=‘忽略’参数不起作用。这看起来像一个pydoop错误，还是我提供了错误的论点？谢谢。

浏览 6提问于2021-03-11得票数 0

回答已采纳

2回答

何时HDFS文件变得可见

、、

假设默认Hadoop设置，如果我将128 MB大小的文件写入HDFS中。客户端需要向HDFS写入两个块。所以我的问题是当第一个块被写入HDFS时，文件会被人读取吗?还是必须等待第二个块也被写入？第二种方案，文件大小为64 MB，有人能读取当前写入HDFS的块吗？或者有人得等着写完。

浏览 2提问于2014-05-06得票数 2

回答已采纳

1回答

如何在Scala中本地读取HDFS中的文本文件(不使用Spark)？

、、、、

我知道我可以像这样读取Scala中的本地文件： import scala.io.Source val filename = "laba01/ml-100k/u.data" for(line <- Source.fromFile(filename).getLines){ println(line) } 这个代码字很好，并打印出文本文件中的行。我用Apache Toree在JupyterHub中运行它。我知道我可以在这个服务器上读取HDFS，因为当我在另一个单元格中运行下一段代码时： import sys.process._ "hdfs dfs -ls

浏览 22提问于2020-05-30得票数 1

1回答

spark.read.parquet和pyarrow.hdfs.connect().read_parquet的区别是什么？

、、

我有hdfs格式的文件，有两个选项可以读取： spark.read.parquet(hdfs_path)pyarrow.hdfs.connect().read_parquet(hdfs_path) 我能知道这两者有什么区别吗?哪一个更好？谢谢。

浏览 10提问于2020-06-16得票数 0

1回答

将许多小文件转移到Hadoop文件系统中

、、

我想将太多的小文件(例如200k文件)以zip文件的形式从本地传输到HDFS中。当我解压缩zip文件并将文件传输到HDFS中时，需要很长时间。有没有什么办法可以将原始zip文件转移到HDFS并解压缩到那里？

浏览 1提问于2015-04-08得票数 4

2回答

使用java将hdfs文件复制到另一个hdfs位置

、、

我需要使用Java将hdfs文件复制到hdfs的另一个位置。不应删除源，只想在目标hdfs位置复制具有新文件名的源文件。我只能看到copyFromLocal、copyToLocal或在FileSystem.java类中重命名。是否有任何方法可以将具有新名称的hdfs文件复制到源目录中？

浏览 0提问于2014-02-17得票数 1

回答已采纳

1回答

Spark无法正确读取文件

、、

我运行Flume将Twitter数据摄取到HDFS ( JSON格式)中，然后运行Spark读取该文件。但不知何故，它没有返回正确的结果:似乎文件的内容没有更新。下面是我的Flume配置： TwitterAgent01.sources = Twitter TwitterAgent01.channels = MemoryChannel01 TwitterAgent01.sinks = HDFS TwitterAgent01.sources.Twitter.type = com.cloudera.flume.source.TwitterSource TwitterAgent01.source

浏览 17提问于2018-02-14得票数 1

1回答

当星火从文件系统读取时，它会被送到驱动程序吗？

、、

我想知道当星火吞食数据时，数据是否被输入到驱动程序中并发送给工作人员，由Spark指示节点从文件系统读取数据？我知道，在星火流中，有了Kafka源，很明显，工人节点从Kafka读取。然而，当从文件系统读取时，我不确定它究竟是如何工作的。案例1 当读取文件系统时，假设文件系统是HDFS。 A.1 -驱动程序是读取文件并将数据传输给正在运行的工人，还是让工人读取文件？ A.2 -原来的分区是否取决于HDFS是如何划分的？案例2 从文件系统(文件系统是本地的文件系统或S3系统) B.1 -分区发生了什么变化，算法是改变我们从HDFS读取还是从本地文件系统读取？(在后一种情况下，将使用

浏览 0提问于2017-08-07得票数 1

回答已采纳

1回答

与本地文件系统相比，序列文件是否有助于提高HDFS中的读取性能？

、、、、

我想比较HDFS和本地文件系统对1000个小文件(1-2MB)的性能。在不使用序列文件的情况下，HDFS读取1000个文件所需的时间几乎是本地文件系统的两倍。我在这里听说过序列文件- 我想展示HDFS在检索这些记录方面比本地文件系统有更好的响应时间。序列文件是否有帮助，或者我是否应该寻找其他文件？(可能是HBase) 编辑:我正在使用Java程序读取像这里的这样的文件

浏览 11提问于2015-06-30得票数 0

1回答

Flume以不一致的方式下沉数据

、、

我有个问题。我正在使用apache flume从txt文件中读取日志，以接收到hdfs。不知何故，一些记录在阅读时被跳过。我正在使用fileChannel，请检查下面的配置。 agent2.sources = file_server agent2.sources.file_server.type=exec agent2.sources.file_server.command = tail -F /home/datafile/error.log agent2.sources.file_server.channels = fileChannel agent2.channels = fileCh

浏览 0提问于2015-04-11得票数 0

1回答

数据块级别的HDFS压缩

、

HDFS的一个大问题是压缩:如果压缩文件，则必须处理可拆分压缩。为什么HDFS要求您压缩整个文件，而不是在HDFS数据块级别实现压缩？这将解决问题:64MB的块是在单个块中读取或写入的，它足够大，可以压缩，并且不会干扰操作，也不需要可拆分压缩。这方面有什么实现吗？

浏览 1提问于2016-07-04得票数 0

1回答

如何使用Jena从HDFS读取文件并将其转换为Rdf？

、、

我使用Apache将.csv文件转换为.rdf。我使用model.read(pathFile)，但它只从本地文件系统读取文件。我想从hdfs (如model.read(hdfs://....) )中读取，但是它会产生一个错误。错误是：线程“主”hdfs://localhost:54310/user/hduser/demo/departments/part-00000.csv中的异常: Not :org.apache.jena.riot.RiotNotFoundException 我该怎么做呢？

浏览 9提问于2017-04-27得票数 1

回答已采纳

1回答

WARN hdfs.DFSClient:零

、

当我在主服务器和从服务器上运行一些作业时，我使用的是Hadoop版本2.8.2，这些作业在hdfs中使用这些文件。主机和从机都在下面的警告中显示此信息 17/11/15 12:51:46 WARN hdfs.DFSClient: zero 17/11/15 12:51:46 WARN hdfs.DFSClient: zero 17/11/15 12:51:46 WARN hdfs.DFSClient: zero 17/11/15 12:51:46 WARN hdfs.DFSClient: zero 17/11/15 12:51:46 WARN hdfs.DFSClient: zero 17/1

浏览 3提问于2017-11-15得票数 2

3回答

将参数传递给存储在HDFS中的shell脚本

、、、

我希望执行一个存储在HDFS中的shell脚本，并选择将参数传递给脚本。我已经验证了以下的工作 hadoop fs -cat hdfs://path_to_script/sample.sh | exec bash 我想做以下工作 hadoop fs -cat hdfs://path_to_script/sample.sh param1 param2 param3 param4 | exec bash 问题是cat命令期望文件流到stdout，但是参数是存储在HDFS中的文件夹和文件。还有其他办法让它起作用吗？

浏览 7提问于2017-05-19得票数 0

回答已采纳

2回答

如果没有本地文件系统的帮助，如何将HDFS中的多个文件附加到HDFS中的单个文件中？

、

我在学hadoop。我现在遇到了一个问题。我运行mapreduce作业，输出存储在多个文件中，但不是单个文件。我想将它们全部添加到hdfs中的单个文件中。我知道appendToFile和getmerge命令。但它们只适用于local file system to hdfs或hdfs to local system，而不是HDFS to HDFS。有没有办法在不接触本地文件系统的情况下将HDFS中的输出文件附加到HDFS中的单个文件中？

浏览 6提问于2019-11-29得票数 0

3回答

Hadoop :为什么在RecordReader实现中使用FileSplit

在Hadoop中，考虑一个大文件已经加载到hdfs文件系统的场景，使用hdfs dfs put或hdfs dfs CopyFromLocal命令，大文件将被拆分成块(64MB)。在这种情况下，当需要创建customRecordReader来读取bigfile时，请解释使用FileSplit的原因，因为bigfile在文件加载过程中已经被拆分，并且以拆分的块的形式存在。

浏览 3提问于2014-12-31得票数 0

3回答

如何避免在使用spark读取HDFS时出现“不是文件”异常

、、、

在最初的EMR步骤中，我使用将文件树从S3复制到HDFS。hdfs dfs -ls -R hdfs:///data_dir显示预期的文件，如下所示： /data_dir/year=2015/ /data_dir/year=2015/month=01/ /data_dir/year=2015/month=01/day=01/ /data_dir/year=2015/month=01/day=01/data01.12345678 /data_dir/year=2015/month=01/day=01/data02.12345678 /data_dir/year=2015/month=01/day=

浏览 3提问于2015-10-03得票数 5

3回答

使用spark访问hdfs中的csv文件

、、、

我使用hadoop -put命令将一个csv文件放入hdfs文件系统中。现在我需要使用访问csv文件。它的格式类似于 `plaintext_rdd = sc.textFile('hdfs://x.x.x.x/blah.csv')` 我是hdfs的新手。如何找到放置在hdfs://x.x.x.x中的地址？这是我输入的输出 hduser@remus:~$ hdfs dfs -ls /input Found 1 items -rw-r--r-- 1 hduser supergroup 158 2015-06-12 14:13 /input/test.csv 任何帮

浏览 1提问于2015-06-12得票数 1

回答已采纳

1回答

如何在hdfs中读取.h5文件？

、、

我想使用hdfs.read()来获取一个xxx.h5文件，但我只是得到了一些随机代码，python如何读取HDFS中的h5文件？这是我的代码： from hdfs import * import pandas as pd import h5py c = Client("http://192.168.1.81:50070") with c.read('/stocks/test/pred/20140103/000001.h5') as reader: for line in reader: print(line) 如何在hdfs中读取xxx

浏览 9提问于2018-01-30得票数 0

1回答

使用一个Avro文件中的两个模式更新avro模式

、、、

我有一个带有第一个模式的avro文件，然后我更新了附加到同一文件的模式。所以现在我在一个文件中有两个模式。avro是如何处理这种情况的。我是否会在文件中添加任何新字段，或者在读取此数据时会丢失任何数据。这是一个实时流应用程序，我在其中将数据写入hdfs。我的上游系统可能会更新模式，但hdfs编写器可能在旧模式上。因此，在我更新编写器以处理较新的模式之前，hdfs avro文件将具有两个模式。注意-我没有模式注册表，我每天创建一个avro文件。因此，如果在中午更新模式，我将拥有一个包含两个模式的avro文件。

浏览 0提问于2017-11-06得票数 0

2回答

如何将txt文件转换为拼花文件并将其加载到hdfs表

、、

我有一个文本文件，我试图把它转换成一个拼花文件，然后通过将它写入hdfs路径，将它加载到一个蜂窝表中。一切都在运行，但表中没有显示值。这是我的代码： #Create my table spark.sql("create external table if not exists table1 ( c0 string, c1 string, c2 string) STORED AS parquet LOCATION 'hdfs://hadoop_data/hive/table1'") hdfs="hdfs://hadoop_data/hive/tab

浏览 0提问于2019-08-05得票数 1

回答已采纳

1回答

只在hdfs中读取火花

、、

我已经用HDFS设置了一个Spark集群配置，并且我知道在HDFS示例中，Spark将读取默认的文件路径： /ad-cpc/2014-11-28/ Spark will read in : hdfs://hmaster155:9000/ad-cpc/2014-11-28/ 有时，我想知道如何在没有reConfig我的集群(不使用hdfs)的情况下，强制Spark在本地读取文件。请帮帮我！

浏览 2提问于2014-11-28得票数 4

回答已采纳

1回答

pyspark读取hdfs文件-无此类文件或目录错误

、

我正在使用pyspark在hdfs中处理一个文本文件。如果我使用简单的hdfs命令，比如"hdfs dfs -cat hdfs:///data/msd/tasteprofile/mismatches/sid_matches_manually_accepted.txt"；it -cat“。但是如果我像下面这样使用pyspark命令，它会一直返回"Errno 2没有这样的文件或目录：“ schemaMismatches = StructType([ StructField("song_id", StringType(), True),

浏览 42提问于2021-05-23得票数 1

1回答

HDFS文件接收器输出作为另一个流-争用条件的文件流输入？

、、

我正在使用结构化流来评估一个15节点星火集群中的特定数据流。我在我的应用程序中定义了两个流查询： SQ1 -从Kakfa ->中读取数据，->写入HDFS文件接收器(路径-hdfs://tmp/输出) SQ2 -从HDFS (与上面相同的路径)读取数据作为文件流，->使用ForeachWriter进一步处理->写入外部数据库。这两个查询都设置为每15秒触发一次。我的问题--我是否在这里看到了一个竞争条件，在这里，SQ2从HDFS获取部分写入的文件(这些文件是由SQ1生成的)？一个更普遍的问题是，HDFS的文件接收器编写器是“原子的”吗？我试着在Spa

浏览 3提问于2018-07-13得票数 4

3回答

什么是HDFS中的“流数据访问”？

、、、

根据HDFS体系结构页面，HDFS被设计为“流数据访问”。我不知道这到底意味着什么，但我想这意味着像like这样的操作要么是禁用的，要么是性能不佳的。这是对的吗？我对使用HDFS存储需要流到浏览器客户端的音频/视频文件很感兴趣。大部分的流将开始完成，但有些可能会有大量的寻求。也许还有另一个文件系统可以做得更好？

浏览 0提问于2009-07-14得票数 4

回答已采纳

2回答

从HDFS读取属性文件

、、、、

我试图读取HDFS上的一个Java属性文件，如下所示： try { properties.load(new FileInputStream("hdfs://user/hdfs/my_props.properties")); } catch (IOException e) { throw new RuntimeException("Properties file not found."); } 但是它似乎不起作用，我得到了"Properties文件找不到“。异常。如果我替换了一个本地文件的路径，它就可以正常工作，并且能够读取该文件。是否可

浏览 6提问于2015-03-10得票数 1

回答已采纳

1回答

如何将HDFS中承载的配置文件传递给Spark应用程序？

、、、、

我在处理星火结构的流媒体。另外，我还在与Scala合作。我想将配置文件传递给我的spark应用程序。此配置文件托管在HDFS中。例如； spark_job.conf (HOCON) spark { appName: "", master: "", shuffle.size: 4 etc.. } kafkaSource { servers: "", topic: "", etc.. } redisSink { host: "", port: 999, timeout: 2

浏览 1提问于2019-05-07得票数 1

回答已采纳

1回答

从群集的所有计算机访问HDFS文件

、、、、

我的hadoop程序最初是以本地模式启动的，现在我的目的是以完全分布式模式启动。为此，有必要从集群的所有计算机提供对在reducer和映射器功能中执行读取的文件的访问，因此我在上问了一个问题(也因为不知道在哪台计算机上执行映射器功能(来自程序逻辑的映射器将只有一个，并且程序将仅用一个映射器启动)，有必要还提供对所有集群上到达映射器功能输入的文件的访问权限。在这方面我有一个问题:是否可以直接使用hdfs-files :即预先从Linux的文件系统复制文件到HDFS的文件系统(因此，我假设，这些文件在集群的所有计算机上都是可用的，请纠正)，然后使用HDFS Java API读取这些文件，在集群的计

浏览 1提问于2013-02-13得票数 0

1回答

在eclipse中读取HDFS文件

、、、

我已经在hdfs中安装了hadoop插件，mapreduce程序有迭代，我想在每次迭代中读取eclipse.my中的一个文件。我是直接从hdfs读取文件，还是将文件复制到本地，然后再读取？他们中哪一个更有效率？谢谢。

浏览 1提问于2013-04-12得票数 0

回答已采纳

1回答

在hdfs文件上运行awk脚本并将结果文件保存在hdfs中

、、、

我在hdfs中有一个文件，我需要在该文件上运行awk脚本。然后，我会将结果保存到另一个hdfs位置。一种方法是在本地下载hdfs文件，然后运行awk操作。另一种方法是通过管道将hdfs文件上的cat结果传递给awk。有没有办法将这一责任委托给map-reduce框架，因为这些文件非常大，有数百万条记录。我找到了这篇关于使用Hadoop流的文章，但是我找不到流jar。https://dzone.com/articles/using-awk-and-friends-hadoop

浏览 30提问于2020-01-27得票数 1

1回答

hdfs dfs -ls webhdfs://未列出所有文件

当我运行下面的命令时，它列出了91个文件 hdfs dfs -ls /data 但是当我使用下面的命令时，它只返回89个文件 hdfs dfs数据网页hdfs://x.x:14000/ -ls 可能的原因是什么？

浏览 0提问于2018-04-27得票数 0

2回答

Apache Flume比copyFromLocal命令花费更多的时间

、、、

我的本地文件系统中有24 my的文件夹。我的任务是将该文件夹移动到HDFS。我有两种方法。1) hdfs dfs -copyFromLocal /home/data/ /home/ 这大约花了15分钟来完成。 2)使用Flume。这是我的经纪人 spool_dir.sources = src-1 spool_dir.channels = channel-1 spool_dir.sinks = sink_to_hdfs # source spool_dir.sources.src-1.type = spooldir spool_dir.sources.src-1.channels = chan

浏览 5提问于2016-10-05得票数 0

1回答

Mapreduce日志-文件与HDFS

我提交了一个mapreduce，这是我的输出。文件和HDFS之间有什么区别，如下所示？ 16/01/07 21:49:58 INFO mapreduce.Job: Counters: 38 File System Counters FILE: Number of bytes read=4011012 FILE: Number of bytes written=8400605 FILE: Number of read operations=0 FILE: Number of large read operations=0

浏览 0提问于2016-01-07得票数 0

回答已采纳

1回答

从水槽到gz文件流

、、

我有一个文件夹，里面有很多gzip文件。每个gzip文件都包含xml文件。我用水槽将文件流到HDFS中。下面是我的配置文件： agent1.sources = src agent1.channels = ch agent1.sinks = sink agent1.sources.src.type = spooldir agent1.sources.src.spoolDir = /home/tester/datafiles agent1.sources.src.channels = ch agent1.sources.src.deserializer = org.apache.flume.si

浏览 6提问于2017-03-03得票数 0

1回答

如何访问脚本中的文件

、

我想知道如何访问私有的桶S3文件或sagemaker的script.py入口点内的文件夹。我使用以下代码将文件上传到S3 boto3_client = boto3.Session( region_name='us-east-1', aws_access_key_id='xxxxxxxxxxx', aws_secret_access_key='xxxxxxxxxxx' ) sess = sagemaker

浏览 5提问于2022-11-16得票数 1

回答已采纳

1回答

在Spark中使用不同的用户名连接到两个不同的HDFS服务器

、

有没有办法在同一个Spark作业中使用两个不同的用户名从HDFS (例如sc.textFile)获取数据？例如，如果我在hdfs-server-1.com上有一个文件，alice用户有权查看它，我在hdfs-server-2.com上有一个文件，bob用户有权查看它，我希望能够执行以下操作： val rdd1 = sc.textFile("hdfs://hdfs-server-1.com:9000/file.txt", user="alice") val rdd2 = sc.textFile("hdfs://hdfs-server-2.com:9000/

浏览 1提问于2016-02-06得票数 1

1回答

如何从存储在HDFS中的CSV文件(许多零件文件)创建dask数据帧

、、

我正在尝试从HDFS文件(Csv)创建dask数据帧。存储在HDFS中的csv文件包含许多零件文件。在read_csv应用编程接口调用时： dd.read_csv("hdfs:<some path>/data.csv") 出现以下错误： OSError: Could not open file: <some path>/data.csv, mode: rb Path is not a file: <some path>/data.csv 事实上，/data.csv是包含许多零件文件的目录。我不确定是否有一些不同的API来读取这样的hdfs

浏览 0提问于2017-09-29得票数 1

1回答

将Tensorflow模型的预测输出保存到hdfs文件中

、、、、

我有一个经过训练的tf模型，我想将它应用于hdfs中的大数据集，大约有数十亿个样本。重点是我需要将tf模型的预测写入hdfs文件中。但是我在tensorflow中找不到关于如何将数据保存到hdfs文件中的相关API，只能找到关于读取hdfs文件的api 到目前为止，我的方法是将训练好的tf模型保存到本地的pb文件中，然后在spark或Mapreduce代码中使用Java api加载pb文件。spark和mapreduce的问题都是运行速度很慢，失败时会出现内存过大的错误。下面是我的演示： public class TF_model implements Serializable{ publi

浏览 6提问于2018-11-25得票数 1