如何使用spark.read.jdbc读取不同Pyspark数据帧中的多个文件_如何在不同的Pandas数据帧中读取多个excel文件_如何在pyspark中读取具有不同模式的多个csv文件？ - 腾讯云开发者社区

python、apache-spark、pyspark、apache-spark-sql、databricks

在Pyspark中，我有一段代码可以将多个文件(>10)读取到不同的数据帧中。但是，我想使用for循环和引用变量或类似的东西来优化这段代码。我的代码如下： Features_PM = (spark.read propertie

浏览 45提问于2020-11-24得票数 0

回答已采纳

2回答

对于1-2列，多个镶嵌块文件具有不同的数据类型

python、pyspark、schema、parquet

我尝试使用Pyspark将不同的拼图文件读取到一个数据帧中，但它给了我错误，因为多个拼图文件中的一些列具有不同数据类型的列。例如:列"geo“在某些文件中的数据类型为"Double”，在另一些文件<em

浏览 12提问于2021-11-22得票数 0

1回答

在一个列表中存储多个pysparks数据帧？

python、apache-spark、pyspark

如何在一个列表中存储多个数据帧？我有一个函数可以读取文件夹中的多个拼图文件。但是，我需要创建一个列表，其中包含正在读取以执行其他进程的数据帧。预期的结果如下所示： dfs = df1、df2、df3、df4、dfn 注意:我正在使用pyspark数据<em

浏览 8提问于2021-07-15得票数 0

1回答

将多个PySpark DataFrames与MergeSchema合并

python、pyspark、pyspark-dataframes

我想将多个PySpark数据帧合并到一个PySpark数据帧中。它们都来自相同的模式，但是它们可能会有所不同，因为有时会缺少一些列(例如，模式通常包含200个具有已定义数据类型的列，其中dataFrame A有120列，dataFrame B有60列)。是否有可能在不写入和读取所有数据帧的情况下再次使用

浏览 2提问于2020-06-22得票数 0

1回答

如何从多个目录中读取多个.parquet文件到单个pandas数据帧中？

pandas、parquet

我需要从多个目录中读取拼图文件。.parquet .parquet 有没有办法将这些文件读取到单个pandas数据帧中？注意:所有的拼图文件都是使用pyspark生成的。

浏览 87提问于2020-01-15得票数 3

回答已采纳

1回答

将文件从S3存储桶读取到PySpark数据帧Boto3

apache-spark、amazon-s3、pyspark、boto3

如何将S3存储桶中的大量文件加载到单个PySpark数据帧中？我在一个EMR实例上运行。如果文件是本地的，我可以使用SparkContext textFile方法。但是当文件在S3上时，我如何使用boto3加载多个不同类型的文件(CSV，JSON，...)转换成一个单独<em

浏览 0提问于2018-05-29得票数 3

回答已采纳

1回答

如何使用Azure databricks在第二代ADLS的多张工作表中读写excel数据

python、pyspark、databricks、azure-databricks

我想使用pyspark在Azure databricks中实现以下逻辑。我有一个下面的文件，其中有多张纸。我想将所有工作表的数据读入一个不同的文件中，并将该文件写入到ADLS2中的某个位置。注意:所有工作表都有相同的模式( Id，名称) 我的最终输出文件应该包含来自所有工作表的数据</

浏览 4提问于2021-10-27得票数 0

1回答

关于在PySpark中写入拼图的问题

csv、pyspark、parquet

在PySpark中将csv文件转换为parquet时遇到问题。当转换相同模式的多个文件时，它们不具有相同的模式，因为有时数字字符串将被读取为浮点型，其他字符串将被读取为整数，等等。列的顺序似乎也有问题。似乎当编写具有相同列的数据帧时，但是以不同的顺序排列以拼接，那么这些拼接就不能被加载到相同的语句中。如何将d

浏览 23提问于2021-01-20得票数 0

1回答

从星火上游不同系统读取数据

apache-spark、rdbms

如果数据来自多个源系统(如RDBMS )，有时来自CSV文件或任何其他文件格式或上游系统，那么如何处理file中的数据摄取。如果文件格式已知，则可以在读取为spark.read.csv或spark.read.jdbc时指定它。但是如果它是动态的，那么如何处理数据摄入呢？

浏览 6提问于2021-12-13得票数 0

2回答

从MySQL读取位数据类型和用AWS胶转换为红移的问题

mysql、pyspark、aws-glue

我在MySQL数据库中有一个表，其中包含一个名为activity的列，该列的数据类型为BIT。当转换为INT时，它可以接受值1、2或3。我还尝试使用ApplyMapping将其转换为INT，但没有成功。对如

浏览 0提问于2018-10-25得票数 3

回答已采纳

1回答

Azure权限中的Databricks notebooks沿袭

databricks、azure-databricks、azure-purview

如果我将文件从ADLS读取到PySpark数据帧中，并以不同文件格式写回另一个ADLS文件夹，那么在配置单元中捕获的谱系是否会显示为这种操作的谱系？

浏览 24提问于2021-09-28得票数 0

2回答

读取PySpark中的所有分区拼图文件

apache-spark、pyspark、apache-spark-sql、parquet

我想要加载存储在S3 AWS文件夹结构中的所有拼图文件。文件夹结构如下：<code>D0</code> 我想要的是一次读取所有的拼图文件，所以我希望PySpark读取2019年所有可用的月份和日期的所有数据，然后将其存储在一个数据帧中(这样您就可以获得一个包含2019年所有日期

浏览 70提问于2019-12-04得票数 0

1回答

Spark和数据的连续处理

amazon-web-services、amazon-s3、pyspark、amazon-emr

我是Spark的新手，但我正在尽可能多地阅读。我有一个小项目，其中多个数据文件(在gzip中)将每小时连续地放在一个S3存储桶中。我需要能够打开/读取这些gzip文件，并在它们之间合并/聚合数据。因此，我需要以整体的方式来看待它们。如何使用Amazon AWS提供的哪些技术和工具？我是在S3文件夹中创建临时<

浏览 0提问于2020-01-23得票数 0

2回答

可以修改Apache Spark JDBC连接器的查询吗？

python、sql、oracle、apache-spark、pyspark

我正在使用PySpark从Oracle DB表中读取数据。我这样做的方式是： url=db_url, properties=connection_details,

浏览 0提问于2020-08-13得票数 2

4回答

Pyspark:如何将spark dataframe转换为json并保存为json文件？

python-3.x、pyspark、apache-spark-sql、pyspark-sql

我正在尝试将我的pyspark sql dataframe转换为json，然后保存为文件。df_final = df_final.union(join_df) 我试过这样的东西。但是它创建了一个无效的json。overwrite=True) {"Variable":"Col1","Min":"20","Max":"30"}

浏览 0提问于2018-11-22得票数 7

0回答

用于在PySpark中定义JSON Schema结构的配置文件

python、apache-spark、pyspark、apache-spark-sql

我已经创建了一个PySpark应用程序，它通过定义的模式读取数据帧中的JSON文件。LongType(), True), df= sqlContext.read.json(file, schema) 我需要一种方法来找到如何在一种配置或ini文件等中定义此模式，并在主PySpark应用程序中读取

浏览 3提问于2016-07-09得票数 9

2回答

如何在Databricks SQL中执行for或while循环

sql、loops、for-loop、while-loop、databricks

有人知道如何在Databricks的SQL中编写for或while循环吗？我尝试了以下SQL Server类型代码的许多变体，但似乎都不起作用。我似乎也找不到任何关于它的参考资料。我不喜欢用SQL语言，因为我需要将输出提供给更多的PySpark代码。

浏览 4提问于2021-11-13得票数 1

1回答

Spark SQL更新/删除

apache-spark、pyspark、apache-spark-sql、pyspark-sql、pyspark-dataframes

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据</e

浏览 7提问于2019-11-15得票数 1

1回答

使用配置单元元数据读取HDFS文件- Pyspark

python、dataframe、pyspark、apache-spark-sql、pyspark-sql

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中</em

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

PySpark使用自定义记录分隔符读取CSV文件

python、python-3.x、pyspark、apache-spark-sql

在pyspark中读取csv文件时，有没有办法使用自定义记录分隔符？在我的文件中，记录用**分隔，而不是换行符。在将csv读入PySpark数据帧时，有没有办法使用这个自定义的行/记录分隔符？

浏览 15提问于2021-05-26得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云