我正在使用databricks,并尝试像这样读入一个csv文件:
df = (spark.read
.option("header", "true")
.option("inferSchema", "true")
.csv(path_to_my_file)
)
我得到了一个错误:
AnalysisException: 'Unable to infer schema for CSV. It must be specified manually.;'
我已经检查了我的文件不是空的,并且我还尝试自己指定模式,如下所示:
schema = "datetime timestamp, id STRING, zone_id STRING, name INT, time INT, a INT"
df = (spark.read
.option("header", "true")
.schema(schema)
.csv(path_to_my_file)
)
但是当尝试使用display(df)查看它时,它只给出了下面的结果,我完全迷失了方向,不知道该怎么办。
df.show() and df.printSchema()
提供了以下特性:
看起来数据没有被读入数据帧。
错误快照:
发布于 2019-09-09 13:20:45
注意,这是一个不完整的答案,因为没有关于文件外观的足够信息来理解inferSchema
不工作的原因。我把这个回复作为答案,因为它作为一个评论太长了。
话虽如此,为了以编程方式指定模式,您需要使用StructType()
指定模式。
使用您的datetime timestamp, id STRING, zone_id STRING, name INT, time INT, mod_a INT"
示例
它看起来像这样:
# Import data types
from pyspark.sql.types import *
schema = StructType(
[StructField('datetime', TimestampType(), True),
StructField('id', StringType(), True),
StructField('zone_id', StringType(), True),
StructField('name', IntegerType(), True),
StructField('time', IntegerType(), True),
StructField('mod_a', IntegerType(), True)
]
)
注意,df.printSchema()
是如何指定所有列都是数据类型字符串的。
https://stackoverflow.com/questions/57683389
复制相似问题