hdfs创建文件_hdfs创建文件夹_云HDFS创建 - 腾讯云开发者社区

、、

我在谷歌搜索但没有找到，是否可以在HDFS文件夹与本地文件夹之间创建链接？示例我们希望在HDFS中的/home/hdfs_mirror本地文件夹中的folder_1之间创建链接。 HDFS文件夹： su hdfs $ hdfs dfs -ls /hdfs_home/folder_1 Linux本地文件夹： ls /home/hdfs_mirror

浏览 0提问于2019-02-26得票数 0

1回答

哪个更快，上传文件到HDFS还是直接创建和写入HDFS文件？

、、、

基本上，我有一个程序，它上传文件到HDFS。这些文件是在任务执行结束时上传的。因此，很多任务同时(在执行结束时)将文件上传到HDFS，从而造成争用。文件大小小于HDFS块(< 64 MB)。我想知道，提前创建HDFS文件是否会更快(任务正在做一些处理以避免争用)，然后在处理完成后，以字符串的形式读取本地文件的内容，然后将该字符串附加到已经预先创建的HDFS文件中。所以，基本上，我的问题是，哪一个有更多的开销，创建一个HDFS文件或者在已经创建的HDFS文件中附加一个字符串？

浏览 1提问于2016-04-26得票数 1

回答已采纳

2回答

如何从HDFS中的文件创建表？

、

我是HDFS和HIVE的新手。在阅读了一些书籍和文件之后，我得到了一些关于这两者的介绍。我有一个问题，就是在HDFS中为其创建一个表格。我在HDFS中有300个字段的文件。我希望在HDFS中创建一个访问该文件的表。但是我想利用这个文件中的30个字段。我的问题是1。hive是否创建了一个单独的文件目录? 2。我是否必须先创建hive表并从HDFS导入数据? 3。既然我想创建一个包含300列中的30列的表，那么hive是否创建了一个只有这30列的文件? 4。我是否必须创建一个包含30列的单独文件，然后导入HDFS，然后创建指向HDFS目录的单元表？

浏览 6提问于2017-04-27得票数 1

回答已采纳

2回答

将水槽管道创建的文件大小增加到Hadoop

、、

我为Flume提供了一个配置文件，如下所示： TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS TwitterAgent.sources.Twitter.type = TwitterAgent.sources.Twitter.channels = MemChannel TwitterAgent.sources.Twitter.consumerKey = TwitterAgent.sources.Twitter.consumerSecret = Twit

浏览 5提问于2013-08-05得票数 0

回答已采纳

2回答

无法访问hdfs中文件夹中带有反斜杠的文件夹

我在hdfs中创建了一个文件夹，它的名称是“\”。如何删除或访问该文件夹？我不能那样做。我尝试在\user\prime\temp\nipun\cddsIdNotinPsdw中创建这个文件，它在hdfs中创建了下面的一个--它以\t作为选项卡，\n作为hdfs的下一行--这里是它在我的hdfs中显示的文件夹的名称，我无法删除它 \user\prime emp ipun\cddsIdNotinPsdw 现在，我无法在hdfs中删除这一点。

浏览 5提问于2017-01-12得票数 1

回答已采纳

1回答

从存储在.avsc文件中的表模式创建单元表

、

我在一个hdfs文件schema.avsc中存储了一个单元表模式。我希望创建同一个模式的单元表，并希望从另一个hdfs路径转储数据，其中数据存储在HDFS文件系统中。 1:如何创建表?2:如何将存储在hdfs文件中的数据转储到创建的表中？

浏览 4提问于2017-01-22得票数 3

回答已采纳

1回答

在hadoop文件系统上使用pyspark读写2D图像

、、、

我希望能够在hdfs文件系统上读写图像，并利用hdfs本地性。我有一组图像，每个图像都是由二维uint16阵列作为xml文件存储的基本附加信息。我想在hdfs文件系统上创建一个归档文件，并使用spark来分析归档文件。现在，为了能够充分利用spark+hdfs结构，我很难找到在hdfs文件系统上存储数据的最佳方法。据我所知，最好的方法是创建一个sequenceFile包装器。我有两个问题：创建sequenceFile包装器是最好的方法吗？有人有我可以用的例子的指针吗？我不能是第一个需要通过spark读取hdfs上的文本文件的人！

浏览 0提问于2015-02-25得票数 7

2回答

RHDFS输出中的字符串字符

rhdfs中的hdfs.write()命令创建一个具有前导非unicode字符的文件。文档没有描述正在写入的文件类型。重新创建的步骤。1.打开R并初始化rhdfs > ofile = hdfs.file("brian.txt", "w") > hdfs.write("hi",ofile) > hdfs.close(ofile) 创建一个名为"brian.txt“的文件，我可以预期它包含一个字符串"hi”。但这揭示和额外的性格在一开始。 > hdfs dfs -cat brian.txt X hi

浏览 4提问于2015-01-09得票数 0

回答已采纳

2回答

哪些进程需要访问core-site.xml和hdfs-site.xml

、

核心-site.xml文件通知Hadoop守护进程在集群中运行NameNode的位置。它包含Hadoop的配置设置，例如HDFS和MapReduce共有的I/O设置。 hdfs-site.xml文件包含HDFS守护进程的配置设置；NameNode、辅助NameNode和DataNodes。在这里，我们可以配置hdfs-site.xml来指定HDFS上的默认块复制和权限检查。在创建文件时，也可以指定复制的实际数量。如果在创建时间内未指定复制，则使用默认值。我希望了解哪些进程Namenode、Datanode、HDFS客户端需要访问哪些配置文件？我想它只需要hdfs-site.xm

浏览 1提问于2018-07-30得票数 0

回答已采纳

1回答

Hadoop Crontab Put

、、、

我试着用crontab编程一个简单的任务，把一些文件从本地复制到HDFS。我的代码是： #!/bing/ksh ANIO=$(date +"%Y") MES=$(date +"%m") DIA=$(date +"%d") HORA=$(date +"%H") # LOCAL AND HDFS DIRECTORIES DIRECTORIO_LOCAL="/home/cloudera/bicing/data/$ANIO/$MES/$DIA/stations"$ANIO$MES$DIA$HORA"*"

浏览 0提问于2015-12-10得票数 1

1回答

pyhdfs.HdfsIOException:找不到数据节点，建议检查群集运行状况。excludeDatanodes=null

、、

我正在尝试使用这里提供的docker运行hadoop： https://github.com/big-data-europe/docker-hadoop 我使用以下命令： docker-compose up -d 来启动服务，并且能够使用：localhost:9870访问和浏览文件系统。每当我尝试使用pyhdfs将文件放到HDFS上时，问题就出现了。下面是我的示例代码： hdfs_client = HdfsClient(hosts = 'localhost:9870') # Determine the output_hdfs_path output_hdfs_path =

浏览 88提问于2019-09-10得票数 0

0回答

Flume代理在连续发送数据时生成多个.tmp文件

、、

我在CDH 5.8.3中运行了flume代理。如果发送的有效文件超过3个，它会在写入hdfs时创建多个.tmp文件。有一个拦截器将有效的XML路由到hdfs接收器之前的适当主题。这个特工使用的是flafka。拦截器和kafka工作正常。 agent.sinks.hdfs_valid.channel=valid_channel agent.sinks.hdfs_valid.type=hdfs agent.sinks.hdfs_valid.writeFormat=Text agent.sinks.hdfs_valid.hdfs.fileType=DataStream agent.sinks.hdf

浏览 5提问于2017-06-19得票数 0

1回答

flume假脱机目录重命名文件.completed甚至在flume代理开始假脱机之前

、

我有我有冲水剂如下 agent1.sources = Weather agent1.sources.Weather.type = spooldir agent1.sources.Weather.spoolDir = /Weather/Docs agent1.sources.Weather.channels = MemChannel agent1.channels = MemChannel agent1.channels.MemChannel.type = memory agent1.channels.MemChannel.capacity = 10000 agent1.channels.Mem

浏览 0提问于2015-04-13得票数 0

1回答

从hdfs导入数据到hbase是否创建一个副本？

、、、、

我对Hbase的概念非常陌生。据我所知，HBase的底层文件系统仅限于HDFS。我只是想了解一下，如果在一个集群中，我已经有一些HDFS中的数据。我尝试在HBase中导入它(或者使用Pig/Hive脚本)，它会以HBase支持的形式( Hbase的底层文件系统是HDFS)在HDFS中创建相同数据的另一个副本吗？或者它将创建对相同HDFS数据的引用？

浏览 4提问于2015-02-01得票数 0

回答已采纳

1回答

线程“主”org.apache.hadoop.mapreduce.lib.input.InvalidInputException:Input路径中的异常不存在: hdfs:host/user/yogesh/WordCount

、、

我已经创建了输入文本文件test.txt，并将其放入HDFS /user/yogesh/ put /test.txt 在HDFS as /user/yogesh/Output上创建输出路径在本地/home/yogesh/WordCount.jar上创建jar文件，并从本地提交jar，如下所示：hadoop jar /home/yogesh/WordCount.jar WordCount /user/yogesh/Input/test.txt /user/yogesh/Output/output1 我有以下错误：线程"main“中出现异常 org.apache.

浏览 3提问于2016-02-26得票数 1

2回答

Java将HDFS中的文件复制到HDFS中的另一个目录

、、

我使用这个链接中的示例将hdfs中的一个目录中的内容复制到hdfs中的另一个目录。文件的复制是可行的，但是它在目标中创建了一个新的子目录，而不是仅仅将文件复制到目标dir。示例： Path source=new Path("hdfs://HANameService/sources/hpm_support/apc_code/"); Path target=new Path("hdfs://HANameService/staging/hpm_support/apc_code/"); FileSystem fs = source.getFileSystem

浏览 4提问于2017-05-21得票数 5

回答已采纳

1回答

Spark Streaming创建了许多小文件

、、

我已经实现了一个火花流作业，它流的事件接收到HDFS在过去的6个月。它在HDFS中创建了许多小文件，我希望它们每个文件的大小都是HDFS的128MB(块大小)。如果我使用append模式，那么所有的数据都会被写到一个拼图文件中。如何配置Spark为每128 MB数据创建一个新的HDFS拼图文件？

浏览 2提问于2018-08-04得票数 2

回答已采纳

1回答

hdfs:现有文件上没有这样的文件或目录

、、

hadoop上的‘'ls /’提供了以下输出： # hdfs dfs -ls / Found 18 items drwxrwxrwt - yarn hadoop 0 2019-05-20 09:22 /app-logs drwxr-xr-x - hdfs hdfs 0 2019-05-15 10:07 /apps drwxr-xr-x - yarn hadoop 0 2019-05-15 09:37 /ats drwxr-xr-x

浏览 1提问于2019-05-20得票数 0

1回答

Flume-ng:将日志文件从本地复制到HDFS的源路径和类型

、、、、

我正在尝试使用local将一些日志文件从HDFS复制到flume-ng。source是/home/cloudera/flume/weblogs/，sink是hdfs://localhost:8020/flume/dump/。cron作业将把日志从tomcat服务器复制到/home/cloudera/flume/weblogs/，并且我希望记录要复制到HDFS的文件，因为这些文件可以在/home/cloudera/flume/weblogs/中使用flume-ng。下面是我创建的conf文件： agent1.sources= local agent1.channels= MemChannel a

浏览 1提问于2016-03-23得票数 0

回答已采纳

2回答

FileUtil.copyMerge()在AWS S3中

、、、、

我使用下面的代码将DataFrame以text格式加载到HDFS中。finalDataFrame是DataFrame finalDataFrame.repartition(1).rdd.saveAsTextFile(targetFile) 执行上述代码后，我发现用我提供的文件名创建了一个目录，在该目录下创建了一个文件，但不是以文本格式创建的。文件名类似于part-00000。我已经使用下面的代码在HDFS中解决了这个问题。 val hadoopConfig = new Configuration() val hdfs = FileSystem.get(hadoopConfig) FileUt

浏览 11提问于2017-09-19得票数 3

回答已采纳

1回答

气流型HDFS传感器

试着让HDFSSensor发挥作用。我已经设置了hdfs连接，并且文件就在那里，但是它一直在戳文件，永远不会完成。戳取文件hdfs://user/airflow/stamps/test/ds=2018-10-15/_SUCCESS 代码如下 hdfs_sense_open = HdfsSensor( task_id='hdfs_sense_open', filepath='hdfs://user/airflow/stamps/test/ds=2018-10-15/_SUCCESS', hdfs_conn_id=&

浏览 0提问于2018-10-18得票数 1

1回答

通过Java程序传递Hadoop程序命令

、、、、

有谁能告诉我是否有办法从java程序中将hadoop命令传递给hdfs (例如:创建用于删除目录和文件“hadoop -mkdir /test")？我试图通过java程序在hdfs中创建和删除目录和文件。另外，有没有办法通过java程序检查hdfs中文件/目录的大小。我试图检查hdfs中目录的大小，如果大小为0，我想删除该文件。我需要通过java程序来完成所有这些事情。请帮帮忙。

浏览 1提问于2014-07-19得票数 3

回答已采纳

1回答

FileNotFoundError：[Errno 2]没有这样的文件或目录：'hdfs'：'hdfs‘在crontab中使用子进程popen

、、、、

我使用python3中的subprocess.popen在hdfs中放置文件或创建目录。在Linux shell上使用python3可以准确地运行它。但是当我使用crontab运行代码时，我在日志文件中得到"FileNotFoundError: errno2No to file or directory：'hdfs'：'hdfs'“错误。 make_dir = subprocess.Popen(['hdfs','dfs','-mkdir' , '-p' , hdfs_path])

浏览 1提问于2021-02-08得票数 2

1回答

Spring云数据流中的Kafka源和HDFS宿

我使用Kafka作为源，我想使用HDFS sink.But将Kafka上的消息写入HDFS，我看到文件在HDFS上创建，但Kafka上的消息没有写入HDFS file.Please。 stream create --definition ":streaming > hdfs --spring.hadoop.fsUri=hdfs://127.0.0.1:50071 --hdfs.directory=/ws/output --hdfs.file-name=kafkastream --hdfs.file-extension=txt --spring.cloud.stream.bindi

浏览 8提问于2017-03-03得票数 0

回答已采纳

2回答

文件或目录如何存储在hadoop中

、、

我使用以下命令在hdfs中创建了一个文件 hdfs dfs -touchz /hadoop/dir1/file1.txt 通过使用以下命令，我可以看到创建的文件 hdfs dfs -ls /hadoop/dir1/ 但是，我无法通过使用linux命令(使用查找或定位)找到位置本身。我在网上搜索，发现了下面的链接。。它说，hdfs是虚拟存储。在这种情况下，它是如何使用哪个分区或需要使用多少分区，在哪里存储元数据？我在hdfs-site.xml中提到的虚拟存储是否采用datanode位置来存储所有数据？我查看了datanode的位置，这里有可用的文件。但是，我无法找到与我创建的文件或文件夹有关

浏览 1提问于2016-08-19得票数 1

回答已采纳

1回答

在HDFS中使用http源保存具有相同扩展名的文件(不同扩展名)

、

我需要创建一条数据管道，其中source是HTTP，Sink是HDFS，用于发布数据和文件。问题是我想用与最初发送到HTTP源文件相同的扩展名保存文件。我用下面的脚本创建了一个流流创建httpToHdfs --定义"http | HDFS“--部署但是当我上传.gzip /.xml / .json格式的文件时，它会将文件存储在.txt中我只想通过HTTP源复制HDFS中的文件，spring xd可以吗？

浏览 2提问于2015-02-22得票数 1

2回答

从ClickHouse访问HDFS HA群集失败，出现HdfsConfigNotFound错误

、、、

我在Clickhouse上创建了一个基于HDFS的表。我的HDFS集群启用了HA，但是在查询我创建的myDDl表时发生了一个错误： CREATE TABLE IF NOT EXISTS userItemLable ON CLUSTER cluster_1st( label int, length int, duration int )ENGINE=HDFS('hdfs://cluster1/test/','') 错误代码： Code: 210. DB::Exception: Received from localhost:9000. DB::Exception

浏览 27提问于2020-07-03得票数 0

4回答

Hbase与蜂巢的比较

、、

我试着对HBASE有一个清晰的理解。 Hive:-它只是为HDFS中的底层文件创建一个表格结构。这样，我们就可以使用户对HDFS文件具有查询能力。如果我错了请纠正我？ Hbase- -同样，我们已经创建了一个类似的表结构，但是在HDFS文件系统上，更多的是以结构化的方式(面向列)。考虑到他们从事的工作类型，他们不是都一样吗？除了蜂巢在Mapredeuce上运行。另外，我们不能在已经存在的HDFS文件上创建Hbase表，这是真的吗？

浏览 6提问于2014-02-18得票数 1

2回答

水槽HDFS接收器不断滚动小文件

、、、、

我正在尝试使用flume将twitter数据流到hdfs中，下面是：无论我在这里尝试什么，它都会继续在HDFS中创建大小从1.5kB到15kB的文件，在这里我想看到大文件(64 to )。下面是代理配置： TwitterAgent.sources = Twitter TwitterAgent.channels = MemChannel TwitterAgent.sinks = HDFS TwitterAgent.sources.Twitter.type = com.cloudera.flume.source.TwitterSource TwitterAgent.sources.Twitte

浏览 5提问于2014-03-03得票数 2

回答已采纳

1回答

HDFS目录是如何按年、月、日创建的？

、、、、

Following the question in this link，还有一个关于在Hadoop HDFS上创建目录的问题。我是Hadoop/Flume的新手，我选择了一个使用Flume将csv数据保存到HDFS的项目。Flume水槽的设置如下所示： contract-snapshot.sinks.hdfs-sink-contract-snapshot.hdfs.path = /dev/wimp/contract-snapshot/year=%Y/month=%n/day=%e/snapshottime=%k%M 使用此Flume设置，相应的csv文件将保存到HDFS中的以下文件夹下：

浏览 47提问于2021-01-11得票数 1

回答已采纳

1回答

无法找到带密钥dfs.encryption.key.provider.uri的uri为CDH5.4在HDFS加密中创建keyProvider

、、、、

CDH版本: CDH5.4.5 问题:当使用HadoopCDH5.4中可用的KMS启用HDFS加密时，在将文件放入加密区域时会出错。步骤： Hadoop的加密步骤如下：创建密钥成功$ hadoop键创建'TDEHDP‘-provider kms://https@10.1.118.1/ key _generator/kms -size 128 tde组已经成功地创建了选项{cipher=’AES/CTR/NoPadding‘、bitLength=128、description='null’、attributes=null}。KMSClientProviderhttps:/

浏览 3提问于2015-09-09得票数 8

1回答

无法从集群中的Datanodes访问HDFS

、

当试图通过从节点(Datanodes)访问HDFS中的数据时，在3节点上安装了cloudera cdh4。当我试图在HDFS中创建新文件夹时，请使用 hadoop fs -mkdir Flume(Foldername) 命令无法从任何一个从节点在集群的hdfs中放置数据或创建文件夹，但是从主节点工作，也可以从主节点、水槽、蜂箱、猪所有其他进程运行在从(Datanodes)尝试重新启动集群namenode格式仍然不能工作！第二，当我在做 hadoop fs -ls / 结果不是来自hdfs，而是来自从节点的当前目录路径。以及除了在HDFS中创建目录之外，如何检查集群中的从节点

浏览 6提问于2013-10-23得票数 0

回答已采纳

1回答

Apache Flume为每行写入创建新文件

、

我正在做一些实验来感受一下水槽。下面是我的配置文件。 agent.channels.memory-channel.type = memory agent.sources.tail-source.type = exec agent.sources.tail-source.command = tail -F /root/test.txt agent.sources.tail-source.channels = memory-channel agent.sinks.hdfs-sink.channel = memory-channel agent.sinks.hdfs-sink.type = hd

浏览 4提问于2014-07-11得票数 1

3回答

Flume HDFS Sink在HDFS上生成大量的小文件。

、、

我有一个玩具设置发送log4j消息到hdfs使用水槽。我无法配置hdfs接收器来避免许多小文件。我想我可以配置hdfs接收器，每次文件大小达到10 to时创建一个新文件，但是它仍然在创建大约1.5KB的文件。下面是我当前的水槽配置： a1.sources=o1 a1.sinks=i1 a1.channels=c1 #source configuration a1.sources.o1.type=avro a1.sources.o1.bind=0.0.0.0 a1.sources.o1.port=41414 #sink config a1.sinks.i1.type=hdfs a1.sin

浏览 0提问于2014-10-02得票数 1

回答已采纳

2回答

在HDFS中创建文件，但不追加任何内容

、、、、

我使用将JSON文件放入HDFS (单节点沙箱)。该文件是在正确的目录中创建的，但是文件中没有任何附加内容。在我开始调试HTTP之前，您能验证一下我的flume.conf吗？ ################################################################# # Name the components on this agent ################################################################# hdfs-agent.sources = httpsource hdfs-agent

浏览 5提问于2015-03-23得票数 0

回答已采纳

2回答

HDFS put:没有这样的文件或目录，即使文件在那里

、

我正在尝试使用以下命令在HDFS中上载文件： sudo -u hdfs hdfs dfs -put /home/hive/warehouse/sample.csv hdfs://[ip_redacted]:9000/data 我可以确认HDFS工作正常，因为我已经很好地创建了/data目录。即使给出.csv文件的完整路径，也会产生相同的错误： put: `/home/hive/warehouse/sample.csv': No such file or directory 为什么它会给出这个错误？

浏览 114提问于2019-07-24得票数 0

2回答

从hdfs将avro文件加载到pyspark数据格式中

、、、、

我已经构建了一个小的数据管道，它将一些虚构的测试数据从本地目录(json-格式)移动到hdfs (avro格式)。这似乎是正确的(没有由水槽显示的错误)，但错误可能已经存在于这里。下一步是使用databricks加载程序将一个avro文件转换为某个(只有python库可以找到)。现在让我解释一下我是如何做到的，这样您就可以看到我可能失败的地方了： 1)使用flume从json文件中创建avro文件我的目标是将json数据从本地目录推送到HDFS，这样我就可以使用pySpark来分析它。我用的是水槽。由于json对HDFS的压缩很差，所以我还使用以下flume.conf将每个文件转换为avro

浏览 1提问于2018-09-03得票数 1

1回答

java中的hdfs问题

、

我使用以下代码删除hdfs文件系统上的一个文件 conf = new org.apache.hadoop.conf.Configuration(); // TODO: Change IP conf.set("fs.defaultFS", "hdfs://aaa.bbb.com:1234/user/hdfs"); conf.set("hadoop.job.ugi", "hdfs"); conf.set("fs.hdfs.impl", org.apache.ha

浏览 2提问于2015-03-03得票数 0

回答已采纳

1回答

如何强制HBase在HDFS上运行？

、、

我在本机文件系统上使用HBase并创建了几个表。现在，我配置了HDFS，并希望HBase使用它。我启动了Namenode和Datanode，但是找不到一个可以告诉HBase使用HDFS的设置。我认为它可能会在重新启动时获得HDFS，所以我这样做了(停止-hbase+ start-hbase)，但我仍然能够看到先前在本机文件系统上创建的表。如何告诉HBase使用HDFS?

浏览 2提问于2012-11-13得票数 1

1回答

Apache flume每小时推出HDFS文件

、、

我是Flume的新手，我正在探索使用Flume每小时翻滚HDFS文件的选项。在我的项目中，Apache将读取来自兔子MQ的消息，并将其写入HDFS。 hdfs.rollInterval --它根据文件打开时的时间间隔关闭文件。只有当Flume在文件关闭后读取消息时，才会创建新文件。这个选择并不能解决我们的问题。 hdfs.path = /%y/%m/%d/%H -此选项工作良好，并按小时创建文件夹。但问题是，只有在新消息出现时才会创建新文件夹。例如:消息将持续到11.59，该文件将处于打开状态。然后信息就停止了，直到12点30分。但是，该文件仍将处于开放状态。12.30之后，新消息出现了

浏览 4提问于2015-08-24得票数 0

1回答

如何在hadoop hdfs中解压文件

、、、、

我在本地目录中有很多JSON文件(1 MM)。我需要将这些ANd文件移动到HDFS. 创建了一个包含所有JSON文件的tar。 tar -cvf filename.tar local_folder_name 将.tar文件移至hdfs目录 hdfs dfs -put filename.tar hdfs://nameservice1/user/hive/warehouse/dbname.db/table_name/ 我需要从hdfs中的tar文件中提取所有文件，并将它们作为单独的JSON文件保存在hdfs中。我使用tar选项的原因是为了将单个文件移动到hdfs，而不是为1 MM.中的每个文件一次

浏览 19提问于2020-05-16得票数 0

1回答

水槽创建小文件

、、

我试图使用flume将hdfs中的文件从本地系统中移出，但是当我运行我的管道时，它正在创建许多小文件。我的原始文件的大小是154-500 5kb，但在我的HDFS中，它正在创建许多大小为4-5kb的文件。我搜索并了解到，更改rollSize和rollCount将有效，我增加了值，但问题仍然存在。此外，我正在得到以下的错误。错误：错误hdfs.BucketWriter:按最大连续复制轮次(30)；由于复制不足，不会在此路径下继续滚动文件。当我在集群中工作时，我有点害怕做hdfs-site.xml.中的更改请建议我如何移动HDFS中的原始文件或使小文件更大(而不是4-5kb，使其为5

浏览 1提问于2017-09-08得票数 2

回答已采纳

2回答

如何更改HDFS用户的hdfs用户主目录？

、

根据我在Hadoop HDFS上的实践，我知道在创建一个用户(比如u1 )并尝试将本地文件系统中的文件放到HDFS中时，它会搜索对HDFS文件系统具有写权限的目录/user/u1 (默认情况下)。默认情况下，所有用户都在HDFS上的/user目录中搜索他们的(HDFS主目录)目录。我的疑问是，我是否可以将默认的HDFS主目录从其他目录更改为/user目录。此外，对于不同的用户，是否可以使用不同的位置来存放HDFS主目录，就像我们在Linux用户中所做的那样，即，对于user1，HDFS主目录应该是/home1/user1，对于*user2，HDFS主目录应该是/home2/user2. 如

浏览 2提问于2014-10-10得票数 1

2回答

HDFS中的默认块大小不是最小的文件大小吗？

、、

HDFS的默认块大小为60 as。那么，这是否意味着HDFS中文件的最小大小是60 in？也就是说，如果我们创建/复制小于60 my大小(例如5字节)的文件，那么我的假设是，如果HDFS中的文件实际大小为1块，即60 my。但是，当我将一个5字节文件复制到HDFS时，当我看到文件的大小(通过ls命令)时，我仍然会看到该文件的大小为5个字节。不应该是60 be吗？. 或者ls命令是否显示文件中数据的大小，而不是HDFS上文件的块大小？

浏览 0提问于2016-10-26得票数 0

回答已采纳

1回答

将HDFS文件映射到外部驱动器时出错

、

我想在hadoop-2.7.3中创建一个文件夹，它物理上驻留在外部(usb-拇指)驱动器上，我的想法是，我-copyFromLocal的任何文件都将驻留在拇指驱动器上。 mkdir /media/usb mount /dev/sdb1 /media/usb hdfs dfs -mkdir /media/usb/test hdfs dfs -copyFromLocal /media/source/input.data /media/usb/test hadoop jar share/hadoop/tools/lib/hadoop-streaming-*.jar \ -input

浏览 0提问于2017-01-13得票数 0

2回答

如何在Hadoop中列出隐藏目录？

、

我使用以下命令在HDFS中创建了一个目录并设置了一个配额： hdfs dfs -mkdir /user/hdadmin/directorio_prueba hdfs dfsadmin -setQuota 4 /user/hdadmin/directorio_prueba 我在里面放了一些文件： hdfs dfs -put /opt/bd/ejemplo1.txt /user/hdadmin/directorio_prueba hdfs dfs -put /opt/bd/ejemplo2.txt /user/hdadmin/directorio_prueba hdfs dfs -put /opt

浏览 1提问于2019-10-19得票数 2

回答已采纳

1回答

如何使用Spark快速从map()中的HDFS中读取文件

、

我需要在每个map()中读取不同的文件，该文件位于HDFS中 val rdd=sc.parallelize(1 to 10000) val rdd2=rdd.map{x=> val hdfs = org.apache.hadoop.fs.FileSystem.get(new java.net.URI("hdfs://ITS-Hadoop10:9000/"), new org.apache.hadoop.conf.Configuration()) val path=new Path("/user/zhc/"+x+"/"

浏览 1提问于2016-05-09得票数 3

回答已采纳

2回答

提取HDFS文件夹或文件详细信息

、、

要使用hive随时查找HDFS目录中存在的文件数，我创建了一个hive外部表。谁能帮助我提取在HDFS中存在的目录的文件细节，因为INPUT__FILE__NAME或hdfs dfs -stat不是我的目的，我希望所有的-ls到一个csv文件。

浏览 0提问于2019-12-16得票数 0

2回答

HDFS文件中的数据未在hive表中看到

、、、

我必须根据oracle表中的数据创建一个单元表。我正在执行sqoop操作，从而将oracle数据转换为HDFS文件。然后，我在HDFS文件上创建一个hive表。sqoop成功完成并在HDFS目标目录中生成文件。然后在hive中运行create表脚本。表被创建。但是它是一个空表，在hive表中看不到任何数据。有没有人遇到过类似的问题？

浏览 4提问于2015-06-11得票数 0

回答已采纳

3回答

火花流无法读取从hdfs中的水槽中创建的文件

、、、、

我创建了一个实时应用程序，在这个应用程序中，我使用flume从weblog中将数据流写入hdfs，然后使用火花流处理该数据。但是，尽管flume正在hdfs中编写和创建新文件，但spark流无法处理这些文件。如果我使用put命令将这些文件放到hdfs目录中，火花流就能够读取和处理这些文件。在同样的问题上有任何帮助都是很好的。

浏览 9提问于2015-06-09得票数 2

回答已采纳