如何在pyspark中读取具有不同模式的多个csv文件？

在pyspark中读取具有不同模式的多个CSV文件，可以使用Spark的DataFrame API来实现。DataFrame是一种分布式数据集，可以以结构化的方式处理数据。

以下是一种实现方法：

from pyspark.sql import SparkSession
from pyspark.sql.types import StructType

spark = SparkSession.builder.getOrCreate()

schema1 = StructType().add("col1", "string").add("col2", "integer")
schema2 = StructType().add("col3", "string").add("col4", "double")

df1 = spark.read.csv("file1.csv", header=True, schema=schema1)
df2 = spark.read.csv("file2.csv", header=True, schema=schema2)

在上述代码中，"file1.csv"和"file2.csv"是要读取的CSV文件的路径，header=True表示第一行是列名。

df1.show()
df2.show()

merged_df = df1.union(df2)

这是一个基本的示例，你可以根据实际情况进行调整和扩展。关于pyspark的更多信息和用法，请参考腾讯云的Spark文档：Spark - 腾讯云

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云