Pyspark:使用configParser读取HDFS上的属性文件

、、、

我正在使用ConfigParser读取传递给我的pyspark程序的键值。当我从hadoop集群的边缘节点执行时，代码工作正常，配置文件在边缘节点的本地目录中。如果配置文件被上传到hdfs路径，并且我尝试使用解析器访问相同的路径，则不会发生这种情况。在Hadoop Cluster上:上传para.conf文件到hdfs<

浏览 23提问于2019-04-10得票数 1

回答已采纳

1回答

pyspark : Configparser未从google存储中读取配置文件

、、、

我正在尝试通过由dataproc运行的pyspark脚本从google存储桶中读取配置文件。但该文件未被读取。config = configparser.ConfigParser()[]

浏览 28提问于2021-04-01得票数 0

1回答

org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem方案"oci“

、、、

当我试图使用pySpark访问存储在OCI对象存储中的文件时，我碰到了上述错误。import configparserimport osfrom pyspark.sql importSparkSessionfrom pyspark.sql.types import * import

浏览 3提问于2021-12-28得票数 0

4回答

从pyspark读取hdfs文件

、、

我正在尝试读取hdfs中的一个文件。这里显示了我的hadoop文件结构。-- 1 hduser supergroup 2685300 2016-03-06 17:31 /inputFiles/CountOfMonteCristo/BookText.txtfrom pyspark import SparkContext, SparkConf conf = SparkConf().setAp

浏览 6提问于2016-03-07得票数 13

回答已采纳

1回答

通过使用PySpark的Kerberos身份验证读取HDFS上的文件

、、、

我有一个采用Kerberos身份验证的HDFS集群。如何使用PySpark读取HDFS上的文件。

浏览 62提问于2019-07-25得票数 1

2回答

在Pyspark中使用时，具有静态文件依赖关系的python包无法读取静态文件

、、

我正在尝试解决python包PySpark的一个问题。我开发了一个python包，它具有以下结构。sample_package/ |-sample.ini |-__init__.pyaddPyFile(path/t

浏览 4提问于2018-06-25得票数 0

1回答

在s3中使用pyspark合并多个小json文件

、、

我是spark的新手。我有许多目录，如上所述，并希望合并所有的文件在一个单一的目录。附言:我试过使用python，但花了

浏览 1提问于2020-02-16得票数 0

1回答

在Pyspark中读取属性文件

、、

我想在我的spark 1.6.0应用程序中读取.ini文件(这是我的配置/属性文件)。为此，我使用ConfigParser读取属性文件。import ConfigParserconfig = ConfigParser.ConfigParser() config.read(os.path.join(os.path.d

浏览 4提问于2016-12-05得票数 0

3回答

spark execution -在驱动程序和执行器中访问文件内容的单一方式

、、

根据这个问题- --files option in pyspark not working，sc.addFiles选项应该适用于访问驱动程序和执行器中的文件。如果我使用--files标志并传递文件，它还会将文件复制到hdfs://路径，该路径可由执行器读取。这是因为addFile要求文件也存在于本地的executors上。当前readme.txt在主节点上。如

浏览 35提问于2021-01-27得票数 0

2回答

如何高效地将MySQL表读入Apache Spark/PySpark？

、、、

我目前已经将这些表导出为CSV文件，并将它们放到HDFS上。现在，我从PySpark上的HDFS中将每个表读取到不同的RDDs中进行分析。from pyspark.sql import SQLContextdf = sqlContext.read.format('com.databricks.spark.csv').options(head

浏览 1提问于2015-12-07得票数 2

1回答

用于火花的HDFS* Config*

、、

我想用pyspark从HDFS读取一个文件。://localhost:8020/data/file.avro", header=True)使用以下命令：谢谢编辑：我解

浏览 14提问于2022-05-04得票数 0

1回答

Apache Tika无法解析HDFS文件

、、、

我正在使用Tika库来解析存储在Hadoop集群中的文档。我使用的代码如下：import urllib3在linux上，如果我给出一个本地路径，tika可以解析，但是对于hdfs路径，我得到一个 Spar

浏览 0提问于2018-03-13得票数 1

1回答

在Python3中操纵JSON配置文件中变量的最佳方法

、、、、

我希望有一个JSON文件，在这里我可以在内部引用值。例如，考虑下面这个JSON配置文件： "hdfs-base":"/user/SOME_HDFS_USER/SOME_PROJECT" ,"processing-path":"$hdfs-base&

浏览 1提问于2020-01-08得票数 1

1回答

使用Nifi预处理大文件

、、

我们有高达8 8GB的文件，其中包含结构化内容，但重要的元数据存储在文件的最后一行，需要附加到每一行内容。使用ReverseFileReader获取最后一行很容易，但这需要文件在磁盘上是静态的，而我无法在现有的Nifi流中找到这样做的方法？在数据流到内容存储库之前，这是可能的吗？

浏览 43提问于2019-06-22得票数 1

回答已采纳

1回答

将DF转换为RDD后，尝试在flatmap中应用拆分方法时出现属性拆分错误

、

我正在使用下面的代码片段来读取一些使用spark上下文的示例文件 >>> textFile = sc.textFile("hdfs:///user/hive/warehouse/sample.txt")现在，我正在使用下面的代码片段读取一些使用data frame的示例文件，然后尝试转换为rdd并应用前

浏览 0提问于2018-09-29得票数 1

2回答

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

、、、、

如果我使用scp将文件复制到安装了HDFS客户端的目标计算机上，然后"hdfs将该文件放入“HDFS中，那么spark可以正确地读取该文件。如果我使用curl对webhdf服务直接从客户端应用程序将该文件上传到HDFS，则在尝试读取parquet文件时从Spark获得以下错误： df = "/usr/hd

浏览 0提问于2018-12-04得票数 0

1回答

HDFS URI不完整，没有主机

、、

我正在尝试通过PySpark从HDFS读取csv文件。我使用了以下代码：该文件可以正确读取。：java.io.IOException: HDFS URI不完整，没有主机:hdfs://xx.XX:x000 我用来创建数据框的代码

浏览 1提问于2018-02-23得票数 3

2回答

如何在pyspark中读取csv文件？

、、

我正在尝试读取csv文件使用pyspark，但它显示一些错误。你能说出读取csv文件的正确过程吗？python代码：df = spark.read.csv("D:\Users\SPate233\Downloads\iMedical\query1.

浏览 9提问于2019-11-11得票数 0

1回答

如何从HDFS读取pyspark中的文件

、、

我使用sqoop将mysql中的数据摄取到hdfs中。我想在pyspark中读取此文件，我可以读取part_m_0000吗，以及如何在.How中找到文件的路径。

浏览 1提问于2021-06-24得票数 0

2回答

如何在Hadoop上运行pySpark

、、、

我是Hadoop世界的新手。我将在我的PC上安装一个独立版本的Hadoop，以便将文件保存在HDFS (当然是1个节点)上，然后运行pySpark从HDFS读取文件并对其进行处理。谁能给我一个清晰的顺序，我需要安装的组件？

浏览 0提问于2017-01-11得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

pyspark : Configparser未从google存储中读取配置文件

org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem方案"oci“

从pyspark读取hdfs文件

通过使用PySpark的Kerberos身份验证读取HDFS上的文件

在Pyspark中使用时，具有静态文件依赖关系的python包无法读取静态文件

在s3中使用pyspark合并多个小json文件

在Pyspark中读取属性文件

spark execution -在驱动程序和执行器中访问文件内容的单一方式

如何高效地将MySQL表读入Apache Spark/PySpark？

用于火花的HDFS* Config*

Apache Tika无法解析HDFS文件

在Python3中操纵JSON配置文件中变量的最佳方法

使用Nifi预处理大文件

将DF转换为RDD后，尝试在flatmap中应用拆分方法时出现属性拆分错误

星星之火:无法从HDFS加载拼板文件，直到将它们“放入”hdfs中。

HDFS URI不完整，没有主机

如何在pyspark中读取csv文件？

如何从HDFS读取pyspark中的文件

如何在Hadoop上运行pySpark

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐