在HDFS上传过程中可以读取数据吗？

文章/答案/技术大牛

发布

1回答

hadoop、hdfs

假设XYZ先生正在将一个500MB的文件上传到Hadoop (HDFS)中。100MB数据成功上传到Hadoop(HDFS)和ABC先生，因为客户端希望在上传过程中读取上传的数据。在这种情况下会发生什么，上传的1000MB数据会显示出来吗？

浏览 27提问于2020-07-14得票数 0

回答已采纳

1回答

SequenceFile.Writer的同步和同步意味着什么？

hadoop、hdfs、sequencefile

环境: Hadoop 0.20.2-cdh3u5 hdfs, Text.class, hdfs.

浏览 3提问于2012-09-24得票数 3

回答已采纳

1回答

在PIG中使用JsonLoader

hadoop、apache-pig、hadoop2、bigdata

浏览 2提问于2017-04-21得票数 0

1回答

Cloudera Hadoop VM 5.10 -找到HDFS路径吗？

hadoop、cloudera

安装Cloudera并将数据文件加载到HDFS中。命令"hadoop -ls /“帮助我验证hdfs中的数据。但是想知道它居住的物理位置吗？任何建议都会有帮助。

浏览 1提问于2017-11-04得票数 0

回答已采纳

1回答

是否有方法使用python脚本将特定的平面文件(.txt或.csv)摄取到HDFS中？

python、hadoop、hive

我正在尝试将本地系统中的一个平面文件加载到HDFS存储中。实际上，我们有GB的数据上传到hadoop内部表。我们使用传统的过程加载数据，比如从文件中读取数据，然后分割成小块，然后使用python的hive查询将每个块加载到内部表中。此过程需要数小时的时间才能加载到表中。我需要一种有效的方法，可以减少数据从文件加载到hadoop表的时间。在google搜索时，我发现我们可以将文件上传到hdfs

浏览 0提问于2020-07-24得票数 0

回答已采纳

1回答

星星之火如何通过标签对分区和分区进行混合

scala、apache-spark

我正在从HDFS中读取一组10,000个10,000个10,000个TB累积大小的拼板文件，并使用以下代码以分区方式将其写入HDFS我在用我看到spark已经为HDFS<

浏览 2提问于2021-03-25得票数 2

回答已采纳

1回答

运行Spark官方python机器学习纱线失败示例

python、hadoop、apache-spark、machine-learning、hadoop-yarn

我可以通过: pi.py成功地在纱线上运行.还有一个问题:当我运行ml示例时，我必须将自己的数据文件上传到hdfs，所以我尝试使用--files，对吗？如果是正确的，因为我不知道hdfs上数据文件的路径，所以python脚本无法获得数据文件。(我可以看到文件上传到hdfs后的路径，即hdfs://master:9000/user&#x

浏览 3提问于2017-03-01得票数 0

回答已采纳

5回答

读取地块文件时刷新Dataframe的元数据

apache-spark、apache-spark-sql、parquet、apache-spark-dataset

我正在尝试将拼图文件作为数据帧读取，它将定期更新(路径为/folder_name。/part-00000-yyyy-yyy.snappy.parquetsparksession.read.parquet("filename") =>它采用旧路径读取数据，但由于更新，文件名发生了更改，我遇到了以下问题 java.io.FileNotFoundException:文件不存在：<e

浏览 1提问于2019-11-08得票数 4

4回答

如何在hadoop中解压缩文件？

hadoop

我试图解压缩一个zip文件，存储在Hadoop文件系统中，并将其存储在hadoop文件系统中。我试着遵循命令，但没有一条有效。有什么帮助吗？编辑1：我没有访问UI的权限。因此，只允许使用命令行。解压缩/gzip实用程序安装在我的hadoop机器上。我正在使用Hadoop 2.4.0版本。

浏览 7提问于2015-03-17得票数 14

2回答

如何读取.orc文件中的表配置单元？

hadoop、hive、orc

或者，是否有其他方法可以读取此文件中的表？

浏览 1提问于2018-05-16得票数 0

1回答

编写一个pig语句序列，按性别计算评分记录的数量和平均评分。

hadoop、hdfs、average、apache-pig

group joinAB by gender;dump D;输入(S)：未能从"hdfs://localhost:9000/mike/users.txt“读取数据，无法从”hdfs://localhost:9000/mike/片中/data.txt“读取数据 localh

浏览 5提问于2022-06-19得票数 0

1回答

如何在向hadoop提交远程应用程序时设置jar路径？

java、hadoop、hadoop-yarn

localResources.put(Common.LOCAL_JAR_PATH, amJarRsrc);但我可以拿到申请证明并将应用程序提交给纱线，但是应用程序总是失败的，我在主机上查看了nodemanger日志，我发现了这些错误。A上运行这个例子，但是我在PC B上部署hadoop，jar在PC A上。1)我是否需要将jar上传到hdfs？如果我需要，我知道该怎么做 2)我只是想了

浏览 3提问于2013-11-08得票数 1

回答已采纳

1回答

Pyspark:使用configParser读取HDFS上的属性文件

hadoop、pyspark、hdfs、pyspark-sql

我正在使用ConfigParser读取传递给我的pyspark程序的键值。当我从hadoop集群的边缘节点执行时，代码工作正常，配置文件在边缘节点的本地目录中。如果配置文件被上传到hdfs路径，并且我尝试使用解析器访问相同的路径，则不会发生这种情况。在Hadoop Cluster上:上传para.conf文件到hdfs目录路径bdc/para.conf parser.read("hdfs://clusternam

浏览 23提问于2019-04-10得票数 1

回答已采纳

2回答

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

scala、apache-spark、hdfs、parquet、webhdfs

我有一个c#应用程序，可以创建拼花文件并将其上传到远程HDFS。如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上，然后"hdfs将该文件放入“HDFS中，那么spark可以正确地读取该文件。如果我使用curl对webhdf服务直接从客户端应用程序将该文件上传到HDFS，则在尝试读取parquet文件时从Spark获得以下错误： df = "/usr&#x

浏览 0提问于2018-12-04得票数 0

2回答

从S3读取500 Is以上的数据并将400 Is的输出保存到S3中是个好主意吗？

hadoop、amazon-web-services、amazon-s3、hadoop2、aws-opsworks

我的job从AWS S3读取500 to数据，同时将中间数据保存在S3中，并将减速器的输出(约400 to)写入S3，这是一个好的设计吗？还有其他更便宜和稳定的解决方案吗？谢谢!

浏览 0提问于2015-11-19得票数 0

回答已采纳

1回答

mahout kmeans聚类:显示错误

hadoop、mahout、k-means

我试着在mahout中集群数据。显示错误。

浏览 2提问于2013-03-07得票数 1

回答已采纳

1回答

带MongoDB存储的Hadoop

mongodb、hadoop、nosql、hdfs、benchmarking

我选择MongoDB作为数据库，但我对某些问题感到困惑，有些问题需要澄清：我

浏览 1提问于2018-09-14得票数 0

回答已采纳

1回答

对数据摄取混淆hadoop

java、scala、hadoop、hdfs、ethernet

这可能是一个简单的问题，但它是概念性的，而不是一个清晰的答案，谷歌可以提供。但我目前的理解是，要将数据“摄取”到hadoop集群中，首先必须在主pc或集群单元上获得数据。这与我知道可以使用hadoop作为分散数据收集的方法相矛盾，如果每个单元都有传感器，您可以在设备上收集数据，并以这种方式摄入数据。假设我有一个Raspberry pi (或任何其他外围以太网设备)，并且我想将数据添加到Hadoop分布式处理/

浏览 4提问于2014-11-06得票数 0

回答已采纳

2回答

将文件从HDFS* dir传输到sftp服务器*

curl、hdfs、sftp、sqoop、sqoop2

我正在尝试将所有部件*文件从一个目录直接从HDFS dir传输到sftp服务器。hdfs文件夹中的所有文件都很大，所以我不想将它们复制到本地文件系统中。当前设置为 curl "<sftp_username>:" --key "<private_key_file_pathpubkey "<public_key_file_p

浏览 8提问于2021-11-22得票数 0

2回答

如何使用Java代码将文件上载和下载到hdfs

java、hadoop

它应该表现为 hadoop fs -put or -copyFromLocal filename directoryName hadoop fs -get or -copyToLocal我需要这个，因为数据集包含图像，音频，视频等文件。上面的命令可以很好地处理所有类型的数据，如果我尝试使用Java /O读取器代码，它可以很好地处理文本文件，但对于图像、视频则不行。; ImageIO.write(

浏览 8提问于2014-12-24得票数 0

回答已采纳

点击加载更多