如何在Python中将文件从本地移动到HDFS？

在Python中将文件从本地移动到HDFS，可以使用Hadoop的HDFS命令行工具或者Python的Hadoop库来实现。以下是一种常见的方法：

首先，确保你已经安装了Hadoop，并且Hadoop的bin目录已经添加到系统的环境变量中。
在Python中，可以使用subprocess模块来执行Hadoop的命令行工具。首先导入subprocess模块：

import subprocess

使用subprocess模块执行Hadoop的命令行工具，将文件从本地移动到HDFS。可以使用hadoop fs -put命令来实现。例如，假设要将本地文件local_file.txt移动到HDFS的/user/hadoop目录下，可以执行以下代码：

local_file = 'local_file.txt'
hdfs_dir = '/user/hadoop'

subprocess.run(['hadoop', 'fs', '-put', local_file, hdfs_dir])

这将使用Hadoop的-put命令将local_file.txt文件复制到HDFS的/user/hadoop目录下。

如果需要将文件移动到HDFS的指定路径下的子目录，可以在hdfs_dir中指定完整的路径，例如/user/hadoop/subdir。

需要注意的是，执行该代码时，确保Hadoop集群已经启动，并且Python的运行环境可以访问到Hadoop的命令行工具。

推荐的腾讯云相关产品：腾讯云Hadoop集群（Tencent Cloud Hadoop Cluster），该产品提供了完全托管的Hadoop集群，可用于大数据处理和分析。详情请参考腾讯云Hadoop集群产品介绍：https://cloud.tencent.com/product/chc

如何在Python中将文件从本地移动到HDFS？

、、

我有一个检查目录中文件的脚本。如果存在正确的文件(带有关键字)，我希望将该文件/那些文件移动到HDFS位置。if keyword in file: subprocess.call(['hdfs', 'dfs', '-copyFromLocal','/tmp&#x

浏览 12提问于2019-09-11得票数 0

回答已采纳

1回答

用Python访问Hadoop

、

我是数据工程领域的新手，目前正在学习Hadoop文件系统及其应用。我想从我的python脚本中执行几个Hadoop命令，这样就可以执行所有的hdfs命令了。我想做的工作是：读取存储在hdfs中的各种文件，如文本、avro、csv和拼花文件。我希望所有这些任务

浏览 11提问于2022-01-06得票数 -1

1回答

无法使用终端将本地Python文件复制到单元格

、、、

我正在尝试将Python文件(用于UDF)从本地下载文件夹上传到HIVE，但没有成功。我用了命令：但是，我收到了以下错误消息：我还尝试通过运行以下命令从本地目录中直接添加文件我还尝试先将文件放入HDFS，然后使用以下命令从<

浏览 0提问于2018-09-09得票数 0

回答已采纳

1回答

Pyspark有一个函数sequenceFile，它允许我们读取存储在HDFS中的序列文件，或者所有节点都可以使用的本地路径。例如，我正在处理的应用程序(不能更改应用程序逻辑)运行一个火花作业，它将该文件写入非HDFS兼容的文件系统，然后我可以作为内存中的python字节对象检索该文件，该对象似乎只包含一个序列化的序列对象，而我应该能够在内存中反序列化该对象因为这个对象已经在内存中(因为我无法控制)，所以我必须反序列化它并实际看到输出(这是一个json

浏览 15提问于2021-12-08得票数 1

1回答

如何有效地将数据从Postgres传输到Amazon？

、、、

在我的机器上，我的本地Postgres数据库中有这么多数据。我需要对这个本地数据库中的数据进行反分类，并获得一个特定格式的查询集，该查询集可以使用Python直接加载到红移表中。我确实有一些查询，可以在本地数据库上运行，并获得需要直接加载到红移的特定格式的查询集。但是有这么多的数据，我需要从本地移动到红移。现在，我能想到的唯一更好的方法是将我获得的查询集导出到一个.csv文件中，该文件将被上传到一

浏览 2提问于2019-10-09得票数 2

回答已采纳

3回答

如何在python中一次将多个文件从本地服务器移动到HDFS？

、、、、

我在服务器上使用的是pythonv3.4，我经常需要将多个文件从本地目录复制/移动到hdfs目录。我的所有文件都在子目录中，而子目录又在MyDir中。下面是我使用的命令-这个命令在服务器上运行良好，但是当我在python内部使用子进程使用相同的命令时>>> s

浏览 1提问于2017-08-16得票数 1

1回答

NiFi:如何将来自多个文件的数据组合成一个文件

、

我想从hdfs中获得20,000多个flowfile，并将它们重新组合成一个flowfile。我希望从这些文件中获取数据(它们是xml格式的)，并将其输入名为xml的变量中，然后当我完成这个过程时，我希望能够在<data>...</data>标记中登记所有这些数据)。

浏览 3提问于2017-11-17得票数 0

回答已采纳

1回答

如何在hadoop hdfs中解压文件

、、、、

我在本地目录中有很多JSON文件(1 MM)。我需要将这些ANd文件移动到HDFS.将.tar文件移至hdfs目录 hdfs dfs -put filename.tar hdfs://nameservice1/user/hive/warehouse

浏览 19提问于2020-05-16得票数 0

1回答

除了subprocess.Open之外，有没有办法从python调用"hadoop cp/distcp“？

、

我需要定期使用python将文件从本地集群移动到GCP，然后再移动回来。虽然在我看来，hdfs可以很好地发现目录结构，但我发现它不提供“复制”选项(据我所知，是limitations of WebHDFS)。在使用subprocess.Open之前，有没有其他方法(例如一些python API)可以将文件从一个位置复制到另一个位置？

浏览 39提问于2019-09-20得票数 2

回答已采纳

3回答

在本地运行良好

、、、

我是Spark和Python的新手，我正在尝试启动Python脚本(通过bash run.sh命令)。 File "/home/test/spark-2.1.2-bin-without-hadoop/pythonpyspark/context.py", line 6

浏览 1提问于2017-11-30得票数 2

2回答

在hadoop中保存和访问表状数据结构

、、、、

我想用MapReduce编程在HDFS中保存和访问一个类似于数据结构的表。此DS的一部分如下图所示。此DS有数万列和数百行，所有节点都应该可以访问它。谢谢。

浏览 2提问于2016-10-04得票数 0

1回答

copyFromLocal Hadoop没有这样的文件或目录错误

、

我有来自Fedora命令终端的以下代码：/root/python_code[root@localhost hadoop]# pwd[root@localhost hadoop]# bin/hdfs`/usr/local&#

浏览 0提问于2016-04-30得票数 0

1回答

H2O Flow UI导出到的根目录是什么？

、

例如，我希望从运行在远程hadoop集群上的h2o flow中导出一个模型(而不是POJO)，这样我就可以将它上传到本地机器h2o会话中，并查看输出指标，而不必再次使用相同的数据来训练模型。但是，当我试图从flow导出模型(以“export_test”命名)时，我找不到它。-nodes 5 -mapperXmx 6g -output hdfsOutputDirName 但是，我没有在hdfsOutputDirName中看到任何名为“hdfsOutputDirName”的文件，也没有在h2o-3.14.0.6-mapr5.2

浏览 2提问于2017-07-07得票数 0

回答已采纳

1回答

Python+PySpark文件本地连接到远程HDFS/Spark/纱线集群

、、

我一直在玩HDFS和Spark。我已经在我的网络上设置了一个五个节点集群，运行HDFS、Spark，并由Yarn管理。工作人员正在以客户端模式运行。从主节点，我可以很好地启动PySpark外壳。对于是否以及如何在这个集群上运行python/Pyspark文件，我有几个问题。如果我在其他地方有一个带有PySpark调用的python文件，比如在我的本地dev笔记本电脑上或者在某个地方的码头容器上，那么有什么方法可以在本

浏览 45提问于2022-10-11得票数 0

回答已采纳

2回答

从PostgreSQL到AWS S3的数据移动和RedShift频谱分析

、、、、

我正在考虑以下方法--我将使用Apache处理我的所有PostgreSQL表，加载DataFrames并将它们存储为AWS S3中的Parquet文件。然后，我将使用RedShift谱来查询存储在这些拼花文件中的信息。首先，我想问一问-这个解决方案会起作用吗？第二个- RedShift谱是否能够在不需要额外模式规范的情况下自动从这些PostgreSQL文件创建外部表(即使原始PostgreSQL表包含AWS RedShift不支持的数据类型)？

浏览 0提问于2018-11-05得票数 1

回答已采纳

2回答

从hdfs将avro文件加载到pyspark数据格式中

、、、、

我已经构建了一个小的数据管道，它将一些虚构的测试数据从本地目录(json-格式)移动到hdfs (avro格式)。这似乎是正确的(没有由水槽显示的错误)，但错误可能已经存在于这里。下一步是使用databricks加载程序将一个avro文件转换为某个(只有python库可以找到)。现在让我解释一下我是如何做到的，这样您就可以看到我可能失败的地方了：我的目标是将json数据从<

浏览 1提问于2018-09-03得票数 1

7回答

如何将Parquet文件读入Pandas DataFrame？

、、、、

如何在不设置集群计算基础设施(如Hadoop或Spark )的情况下，将适度大小的Parquet数据集读入内存中的Pandas DataFrame？这只是我想在内存中阅读的少量数据--在笔记本电脑上使用一个简单的Python脚本。数据不驻留在HDFS上。它要么在本地文件系统上，要么在S3中。我不想分拆和配置其他服务，如Hadoop、Hive或Spark。我以为Blaze/Odo会让这成为可能: Odo文档提到了Parquet，但是这些例子似乎都经过了一个外部

浏览 22提问于2015-11-19得票数 146

回答已采纳

1回答

hive对json和insert的说明

、

1)我想试试下面链接中关于JSON.when的例子，我在网上查到了这么多JSON.when，不知道我需要用哪一个，而且每一个有什么区别？

浏览 2提问于2016-05-10得票数 0

1回答

在python代码中使用hadoop -put命令将文件从本地文件系统传输到hdfs时发出的问题

、、

我在python中使用这段代码，它从文件中读取记录，对它们进行一些处理，然后将结果写入一个新的file.Then --我将文件从本地文件系统传输到hdfs： else: out.write('\n') str = "HADOOP_USER_NAME=

浏览 0提问于2015-10-08得票数 1

3回答

如何配置pyspark默认写入HDFS？

、、

默认情况下，我正在尝试将spark写入HDFS。目前，当我在RDD上调用saveAsTextFile时，它会写入我的本地文件系统。具体地说，如果我这样做：rdd.saveAsTextFile("/tmp/sample") 它将写入我的本地文件系统中一个名为/tmp/sample的文件。然后将其保存到本地hdfs实例上的适

浏览 0提问于2017-11-28得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Python中将文件从本地移动到HDFS？

相关·内容

如何在Python中将文件从本地移动到HDFS？

用Python访问Hadoop

无法使用终端将本地Python文件复制到单元格

反序列化内存中的Hadoop序列文件对象

如何有效地将数据从Postgres传输到Amazon？

如何在python中一次将多个文件从本地服务器移动到HDFS？

NiFi:如何将来自多个文件的数据组合成一个文件

如何在hadoop hdfs中解压文件

除了subprocess.Open之外，有没有办法从python调用"hadoop cp/distcp“？

在本地运行良好

在hadoop中保存和访问表状数据结构

copyFromLocal Hadoop没有这样的文件或目录错误

H2O Flow UI导出到的根目录是什么？

Python+PySpark文件本地连接到远程HDFS/Spark/纱线集群

从PostgreSQL到AWS S3的数据移动和RedShift频谱分析

从hdfs将avro文件加载到pyspark数据格式中

如何将Parquet文件读入Pandas DataFrame？

hive对json和insert的说明

在python代码中使用hadoop -put命令将文件从本地文件系统传输到hdfs时发出的问题

如何配置pyspark默认写入HDFS？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐