文章/答案/技术大牛

发布

社区首页 >问答首页 >无法推断pyspark中CSV的架构

问无法推断pyspark中CSV的架构
EN

Stack Overflow用户

提问于 2019-08-28 07:44:42

回答 1查看 11.8K关注 0票数 2

我正在使用databricks，并尝试像这样读入一个csv文件：

df = (spark.read      
  .option("header", "true")
  .option("inferSchema", "true")
  .csv(path_to_my_file)
)

我得到了一个错误：

AnalysisException: 'Unable to infer schema for CSV. It must be specified manually.;'

我已经检查了我的文件不是空的，并且我还尝试自己指定模式，如下所示：

schema = "datetime timestamp, id STRING, zone_id STRING, name INT, time INT, a INT"
df = (spark.read      
  .option("header", "true")
  .schema(schema)
  .csv(path_to_my_file)
)

但是当尝试使用display(df)查看它时，它只给出了下面的结果，我完全迷失了方向，不知道该怎么办。

df.show() and df.printSchema()提供了以下特性：

看起来数据没有被读入数据帧。

错误快照：

pyspark

apache-spark

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-09-09 13:20:45

注意，这是一个不完整的答案，因为没有关于文件外观的足够信息来理解inferSchema不工作的原因。我把这个回复作为答案，因为它作为一个评论太长了。

话虽如此，为了以编程方式指定模式，您需要使用StructType()指定模式。

使用您的datetime timestamp, id STRING, zone_id STRING, name INT, time INT, mod_a INT"示例

它看起来像这样：

# Import data types
from pyspark.sql.types import *

schema = StructType(
   [StructField('datetime', TimestampType(), True),
    StructField('id', StringType(), True),
    StructField('zone_id', StringType(), True),
    StructField('name', IntegerType(), True),
    StructField('time', IntegerType(), True),
    StructField('mod_a', IntegerType(), True)
   ]
  )

注意，df.printSchema()是如何指定所有列都是数据类型字符串的。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/57683389

复制

相似问题

问无法推断pyspark中CSV的架构
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法推断pyspark中CSV的架构EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问无法推断pyspark中CSV的架构
EN