Pyspark -在嵌套数组中强制转换列

文章/答案/技术大牛

发布

1回答

、、、、

-- Name: string (nullable = true) | | | | |-- Type: string (nullable = true) 如何选择Amount列以便对其进行强制转换

浏览 23提问于2020-09-04得票数 0

1回答

我有一个包含多个列(1000)的数据框，它们具有字符串类型。我希望将它们转换为不是一列一列地浮动，而是一次浮动所有数据帧。此外，我知道这是存在的： from pyspark.sql.types import IntegerType data_df = data_df.withColumn("column_name",data_df["columns_name"].cast(IntegerType())) 但我正在研究这样的东西： data_df = data_d

浏览 17提问于2021-04-15得票数 0

回答已采纳

1回答

将嵌套字典键值转换为pyspark数据

、、、

我有一个Pyspark数据文件，看起来像这样：我希望提取"dic“列中的嵌套字典，并将它们转换为PySpark数据格式。如下所示：请告诉我如何做到这一点。谢谢!

浏览 2提问于2020-07-20得票数 2

1回答

如何在火花放电中使用导入org.apache.spark.sql.catalyst.parser.CatalystSqlParser

、、、、

我们怎么才能用在org.apache.spark.sql.catalyst.parser.CatalystSqlParser中导入它，它在Scala中工作得很好，现在根据需求，我们尝试转换我们的项目

浏览 7提问于2022-06-09得票数 0

3回答

Pandas:有没有一种方法可以在不遇到AttributeError的情况下使用.str访问器来检查对象是否真的是一个字符串？

、、

我使用toPandas()将pyspark数据帧转换为pandas数据帧。但是，因为某些数据类型不对齐，所以pandas会将数据帧中的某些列强制转换为object。我想用实际的字符串在我的列上运行.str，但似乎不能让它工作(如果没有显式地找到首先要转换的列)。一种可能的解决方案是在pyspark端获取字符串列的列表，并将这些列作为运行.str方法的列进行传递。编辑：astype(str)不工作b

浏览 1提问于2020-06-23得票数 1

1回答

将列表列转换为嵌套结构列

、、、、

我正在尝试将一组丑陋的文本字符串转换为具有代表性的PySpark数据格式。最后一步是将包含字符串列表的列转换为包含嵌套行结构的列。对于列表中的每个字符串，我使用python字典理解将其规范化为相同的字段。当我试图通过列上的udf来转换它时，它会失败。from pyspark.sql import Row Row(**ext

浏览 2提问于2018-10-20得票数 1

回答已采纳

1回答

AWS pySpark:将字符串列拆分为新的整数数组列

、、、

我试图使用Glue和pySpark在AWS上执行ETL工作，但不幸的是，我对此非常陌生。在大多数情况下，我没有任何问题，使用胶水动态数据，以执行应用程序和一些其他的转换，我必须执行。但是，我面临一个特定列的问题，必须将其从字符串转换为整数数组。在这个列value中，我们将数据类型设置为string，它实际上是一个转换为string并由空格分隔的整数数组，例如，value列

浏览 5提问于2020-04-20得票数 2

回答已采纳

1回答

使用Pyspark从数组中读取JSON项？

、、、

我在从databricks中的Cosmos DB读取项目时遇到了一些问题，它似乎将JSON读取为字符串值，并将数据从JSON中读取到列中。我有一个名为ProductRanges的列，其中一行包含以下值： [ { "min": 0, "max": 99,DB中，JSON文档是有效的，当导入数据时，dataframe中</e

浏览 29提问于2019-05-13得票数 4

回答已采纳

1回答

如何重命名所有列，在pyspark中创建dataframe之后，如何根据模式/从csv文件中读取数据类型来转换数据类型

、

在pyspark中创建示例数据 from pyspark.sql.types import StructField testdata = [("aaaa",1,50.0,"05-APR-2020"), ("bbbb",2,100.0TypeError:字段

浏览 1提问于2020-05-04得票数 0

回答已采纳

1回答

套式阵列的拉威尔型铸造

、、、、

如何为雄辩的模型创建强制转换定义，从而允许自动处理嵌套数组的编码/解码？问题是，如果您有一个嵌套的PHP<e

浏览 3提问于2019-10-21得票数 1

回答已采纳

1回答

AWS胶水:在结构中使用火花重命名字段名

、、

在使用AWS Glue中的Unnest转换之后，这里提到的模式是我原始模式的一部分。profile.details.indices.index.val.indexname: string我的要求是在structprofile.details.indices.index.val.indexname“和"profile.details.indices.index.val.index

浏览 1提问于2020-02-03得票数 1

1回答

(Py) SQL语法中的星火getItem()

、、

数组类型列的第n项可以使用getitem(n)检索.地图类型的列可以使用getItem(key)或'column.key'分开。数组有类似的语法吗？上下文:目标是以可读的方式从大规模嵌套的json中获取特定字段。from pyspark import SparkContext sc = SparkContext.getOrCreate(

浏览 4提问于2020-10-09得票数 0

回答已采纳

2回答

PySpark DataFrames:筛选数组列中的值

、

我在PySpark中有一个PySpark，它的一个字段有一个嵌套数组值。我想过滤数组包含特定字符串的DataFrame。我不知道该怎么做。nullable = true) | |-- element: string (containsNull = false) 我希望返回upper(name) == 'JOHN'和lastName列(数组)包含'SMITH'和等式的所有行(就像我对名称所做的那样)。我<e

浏览 4提问于2016-06-24得票数 0

回答已采纳

1回答

Conver int YYYYMMDD到目前为止

、、、

我正在尝试将一个INT列转换为一个有Pyspark的Databricks中的日期列。列如下所示：202101022021010620210104df = df.withColumn("Report_Date", col("Report_Date").cast(DateType()))由于数据类型不匹配，无法解析“<em

浏览 0提问于2021-03-22得票数 0

回答已采纳

1回答

基于另一列的字符串搜索在中创建具有函数的新列

、、、、

我有一个包含字符串值的列(即“xyztext\afadfa”)。我希望创建一个新列，其中值为“0”或“1”，这取决于原始列是否包含某些文本(即“文本”)。现在已经添加了.cast(int))，但是当我插入列名: df1 = df.withColumn('Target'，df.column.contains(‘text’).cast(‘int’)时，收到的“列不可调用”错误from pyspark.s

浏览 3提问于2016-05-24得票数 1

回答已采纳

1回答

数据表列

、、

我有一个PySpark数据格式。我正在尝试添加更多的列。 AssertionError col应该是列 str对象没有属性强制转换。

浏览 2提问于2021-09-23得票数 0

回答已采纳

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

2回答

如何在火花放电中将密集向量的关系式转换成DataFrame？

、、、、

0.0, 0.0, 0.0]), DenseVector([0.0, 1.0, 1.0, 0.0, 0.0, 1.0, 0.0, 0.0, 0.0, 0.0, 0.0, 1.0, 0.0])] File "<stdin>", line 1, in <module> File "/opt/BIG-DATA/spark-2.0.0-bin-hadoop2.7/python/pysparkimport SparkConf,

浏览 3提问于2016-12-26得票数 11

回答已采纳

3回答

使用PySpark从嵌套数组中获取统计信息

、、、、

我想使用PySpark在表上执行一些聚合。我的表名是COMPLEX_DATA，存储在雪花中。坐标列的数据类型是可变的。嵌套数组的大小不是固定的。我可以有1000个嵌套数组，还有其他没有嵌套数组的情况。

浏览 11提问于2022-07-04得票数 2

回答已采纳

6回答

在数组类型列中求和值的最佳方法(Integer())

、、

builtins__.sum(arr),IntegerType()) 但是，我已经了解到，UDF对于纯pySpark在没有UDF的情况下，可以在pySpark中执行上面的代码吗？

浏览 7提问于2017-12-15得票数 13

回答已采纳

点击加载更多