Pyspark :更改嵌套列数据类型

文章/答案/技术大牛

发布

2回答

、

如何在Pyspark中更改嵌套列的数据类型？例如，如何将value的数据类型从string更改为int？

浏览 19提问于2017-08-23得票数 1

回答已采纳

1回答

Parquet文件的文档表明它可以存储/处理嵌套数据类型。然而，我找不到更多关于最佳做法/陷阱/.的信息。将这些嵌套数据类型存储到Parquet时。我正在考虑以下情况： I使用PySpark (Spark3.3)将我的星火DataFrame存储到一个Delta文件(该文件在罩下使用Parquet文件)。DataFrame DataFrame有一个嵌套的数据类型( StructType )列，还有许多(100+)数据

浏览 2提问于2022-11-11得票数 1

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式我怎样才能获得数据类型，比如说，姓氏？编辑: Json文件当然已经写在datafram

浏览 42提问于2021-10-22得票数 0

1回答

PySpark拼花数据类型

、

我使用PySpark读取一个相对较大的csv文件(~10 to )：所有列都有数据类型string。例如，在更改column_a的数据类型后，我可以看到数据类型已更改为integer。如果我将ddf写到一个拼图文件中，并读取这个拼图文件，我会注意到所有的列都有数据类型string。问题：如何确保拼花文件包含正确的

浏览 4提问于2018-06-01得票数 0

2回答

用电火花改变多列的DataType

、、

我正试图用pyspark更改多列(100列)的数据类型，我试图创建一个循环或其他可以帮助更改100列(任何帮助)的内容，将不胜感激。这是帮助我更改3列的语法： IntegerTypedfcontract2 = dfcontract \ .withColumn

浏览 12提问于2022-07-19得票数 0

回答已采纳

1回答

如何使用pyspark修改托管增量表的列数据类型？

、、、

如何使用pyspark根据输入参数更改列数据类型 from pyspark.sql.types import IntegerType,BooleanType,DateType from pyspark.sql.functions

浏览 11提问于2021-11-10得票数 1

3回答

将数据抛出错误转换为列字符串

我有两个数据类型为+----+----------------++100| 8606738 || 130| 8602984 |我希望使用pyspark命令将列区域转换为str，但我得到的错误如下所示 str (df‘str’)：但它没有将数据类型

浏览 1提问于2019-05-17得票数 0

回答已采纳

1回答

如何去掉火花数据的开始和结束列值中的引号？

、、

它的一些列数据类型从向量更改为字符串。列值从0.350562388776,0.203056015074，-0.313145598397更改为'0.350562388776,0.203056015074，-0.313145598397'。我试着把它转换成我用过的向量-from pyspark.sql.functions import udflist_to

浏览 4提问于2017-05-04得票数 0

3回答

使用PySpark从嵌套数组中获取统计信息

、、、、

我想使用PySpark在表上执行一些聚合。我的表名是COMPLEX_DATA，存储在雪花中。坐标列的数据类型是可变的。嵌套数组的大小不是固定的。我可以有1000个嵌套数组，还有其他没有嵌套数组的情况。

浏览 11提问于2022-07-04得票数 2

回答已采纳

1回答

如何在火花放电中使用导入org.apache.spark.sql.catalyst.parser.CatalystSqlParser

、、、、

我们怎么才能用

浏览 7提问于2022-06-09得票数 0

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。我有一个名为ProductRanges的列，其中一行包含以下值： [ { "min": 0, "value": "Overstocked"

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

PySpark:如何根据列的数据类型替换空值？

、

我有一张表格，里面有257列。我试图找出如何根据数据类型更改表中的空值。我正试图在PySpark中做到这一点。而dataframe的名字叫做df。因此，例如，如果列包含日期，则为时间戳数据类型，且该列中的空值必须为1900-01-01如果是字符串类型，则应该是n/a 谢谢

浏览 5提问于2022-04-15得票数 0

回答已采纳

1回答

更新Glue作业中的分区后无法从雅典娜查询Glue表

、、、

我们已经尝试更改云格式中的表定义，以创建带有预定义分区(年份、月、日)的表，并且我们将StoredAsSubDirectories更改为true，但它没有工作。在实现我们的代码时，我们遵循了文章。

浏览 6提问于2020-04-20得票数 4

3回答

pyspark:将字符串转换为结构

、、、、

1581534117303\"}", "LastUpdatedBy": "System"使用aws glue，我想要将"Properties“列关联起来，但由于数据类型为string，因此无法实现。null,"...|如何使用relationalize tra

浏览 2提问于2020-02-19得票数 2

1回答

从Pandas数据帧到Spark数据帧的转换需要大量的时间

、、、

from pyspark.sql import SparkSession .

浏览 18提问于2021-03-02得票数 2

1回答

从亚马逊s3存储桶中读取csv文件时列数据类型发生变化

、、

我有两列的pyspark dataframe，后来我使用withColumn函数添加了第三列，将当前日期添加到所有现有行。df.write.format("csv").option("header"，"true").option("delimiter"，"，").save("s3://location") 稍后，我尝试使用pyspark从s3读取csv文件，将created_date<

浏览 18提问于2020-09-14得票数 0

1回答

Pyspark句柄从字符串转换为十进制

、

我是在Databricks中使用Pyspark的新手，所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe，它有数据类型为string的列。一个例子(见下图)是列netto_resultaat。要求将此列和其他与财务相关的列从字符串更改为小数。这是因为我要导出Azure SQL数据库中的架构和数据。我尝试了以下几种方法：从pyspark.sql.functions导入列从pyspark.sql.types导入DecimalType

浏览 23提问于2021-10-25得票数 0

回答已采纳

1回答

有没有办法在pyspark中获取列数据类型？

、

已经讨论了在pyspark中查找列数据类型的方法是使用df.dtypes 。这样做的问题是，对于像数组或结构这样的数据类型，你会得到像array<string>或array<integer>这样的东西。问:有没有一种本机方法来获取pyspark数据类型？

浏览 0提问于2018-08-02得票数 12

回答已采纳

1回答

在从Kafka服务器接收json后，更改pyspark* dataframe的两列的数据类型，但将获得空值。*

、、、、

我希望两者的数据类型都是整数类型。我尝试使用.withColumn()并更改列的数据类型，列的tweet_id和userID的数据类型确实更改为Integer，但我得到了空字段。15450206895220

浏览 1提问于2022-07-07得票数 0

回答已采纳

1回答

具有列表数据类型的列: Spark HiveContext

、、

下面的代码聚合并创建一个数据类型为list的列： "column_name_1" expr("collect_list(column_name_2) " ) 因此，似乎可以将“list”作为dataframe中的列数据类型。我想知道我是否可以写一个返回自定义数据类型</em

浏览 2提问于2016-07-15得票数 0

点击加载更多