拆分pyspark dataframe中的Array列

文章/答案/技术大牛

发布

2回答

、、、、

我有一个如下所示的数据框 col1 [a1_b1_c1, a2_b2_c2, a3_b3_c3] [aaa2_bbb2_ccc1, aaa2_bbb2_cc2, aaa3_bbb3] 现在我想拆分元素，需要形成下面提到的数据帧， newcol1[c1,c2,c3]

浏览 66提问于2021-07-29得票数 1

回答已采纳

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrame 当我使用以下命令分割字符串时TopicModelVectorSplit = TopicModelVector.select('TopicModelVector').map(la

浏览 0提问于2016-06-22得票数 0

1回答

Databricks:如何将行的值转换为数组类型

、

假设我有下面的数据帧col1 a b c有什么想法吗？

浏览 16提问于2019-11-07得票数 0

1回答

如何使用PySpark正确导入CSV文件

、、、、

(delimiter=',') \我的file是一个有10列的.csv，由','分隔。然而，最后一篇专栏包含了一些文本，其中也包含了大量的","。按","拆分将导致每一行的不同列大小，而且，我没有将整个文本放在一列中。我只是在寻找一种很好的方法来将.csv文件加载到在最后一个索引

浏览 1提问于2022-05-25得票数 2

回答已采纳

1回答

PYSPARK:-在不丢失null值的情况下分解dataframe中的数组：“DataFrame”对象没有属性“_get_object_id”

、、、

调用下面的对象时出错是在不丢失空值的情况下分解dataframe中的数组，但在调用列时我得到错误，说对象没有属性‘_ code.This _ object _id’。需要帮助，在其他方式调用列，可以工作。from pyspark.sql import SparkSessionfrom pyspark.sql import Row fromp

浏览 2提问于2018-07-05得票数 2

1回答

左反团员

、、、

我有一个dataframe，它有两个列a和b，其中b列中的值是a列中值的a子集。，其中anti_b列中的值是来自a列的任何值，这样a!=anti_b和行(a,anti_b)就不会出现在原始的数据格式中。-+ 这可以通过一个crossJoin和对array_contains的调用来实现，但是它非常慢而且效率很低。

浏览 2提问于2019-11-18得票数 0

1回答

从CSV中将字符串数组读取为Pyspark中的数组

、、

我有一个包含如下数据的文件 ID|Arr_of_Str 2|["PQR", "ABC DEF"] 我想读这篇文章文件，但是当我使用，它将其作为字符串读取。string (nullable = true) 预期： df.printSchema() |-- ID: integer (nullable = true) |-- Arr_of_Str: array

浏览 45提问于2019-12-12得票数 2

回答已采纳

1回答

如何连接Pyspark中的特定列

、、

在pandas中，Pyspark中特定列连接由以下代码执行： datamonthly=datamonthly.merge(df[['application_type','msisdn','periodloan']],how='left',on='msisdn') 我使用Pyspark尝试了类似的逻辑 datamonthly = datamonthly.join(datalabel ,

浏览 13提问于2021-08-30得票数 1

回答已采纳

1回答

如何在PySpark中迭代数组列

在PySpark中，我使用了dataframe_a：| str1 | array_of_str || apple | 2 |我想要创建一个数组joined_result类型的新列，它将array_of_str (dataframe

浏览 1提问于2020-01-09得票数 1

回答已采纳

1回答

在CSV文件中处理JSON对象并保存到PySpark DataFrame

、、、、

如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。我得到的产出如下options(header="true", delimiter = ',&#

浏览 2提问于2020-09-23得票数 1

1回答

pyspark dataframe拆分动态列

、、

(我不是python开发人员) 我们有一个由外部开发的库，用于重新计算温度测量中的误差。这可以很好地工作，但现在我们注意到，我们的两种传感器类型产生不同的日志文件(欧洲和澳大利亚不同)。Auto202012101237.TXT")data2 = data21.filter(~col("_c0").contains(header2)) 这会产生一个只有_c0列的好文件因此，欧洲版本<e

浏览 13提问于2021-01-21得票数 0

1回答

PySpark将列拆分到具有应用架构的新数据帧

、、、

如何通过逗号将字符串列拆分为具有应用模式的新数据帧？作为示例，下面是一个包含两列(id和value)的pyspark DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value列并将其拆分到一个新的Da

浏览 18提问于2021-11-10得票数 1

1回答

我有一个数据帧，如下所示 from pyspark import SparkContext, SparkConf,SQLContext config = SparkConfwithColumnRenamed("_2","word1").withColumnRenamed("_3","word2").withColumnRenamed("_4","word3") 现在我需要将第一列和其余列作为numpy

浏览 18提问于2019-10-02得票数 0

回答已采纳

1回答

如何在pyspark中使用pandas_udf拆分dataframe中的字符串

、、

我只有一列的dataframe。我想使用pyspark中的pandas_udf拆分字符串。因此，我有以下代码： from pyspark.sql.functions import pandas_udf, PandasUDFType def split_msg_c6)).drop("_c6") 但这是行不通的。任何帮助都非常感谢！

浏览 17提问于2019-10-03得票数 0

回答已采纳

2回答

将包含最近vaues的列添加到PySpark Dataframe

、、、、

我有一个PySpark dataframe (比如df)，它有两个列( Name和Score)。dataframe的列中的数值。下面是前面提到的numpy数组：我希望将列Score 每一行的值与 bin_array 中的值进行比

浏览 4提问于2019-10-11得票数 3

回答已采纳

1回答

如何在Pyspark* Dataframe中训练和测试拆分的时间序列数据*

、、、

我想对排序后的Pyspark数据帧进行基于时间的训练测试拆分。假设前300行将在训练集中，下200行将在测试拆分中。我可以用以下命令选择前300行： train = df.show(300) 但是如何从Pyspark dataframe中选择最后200行呢？

浏览 14提问于2019-03-13得票数 1

4回答

如何使用PySpark将向量拆分为列

、、、、

上下文：I有一个包含2列的DataFrame：word和vector。其中，“向量”的列类型为VectorUDT。问题：提前感谢

浏览 10提问于2016-07-14得票数 68

回答已采纳

1回答

如何将numpy.array作为新列添加到pyspark.SQL DataFrame？

、、、、

下面是创建pyspark.sql DataFrame的代码import pandas as pddf = pd.DataFrame(np.array([[1,2,3],[4,5,6],[7,8,9],[10,11,12]]),samplingRatio=0.1)a

浏览 0提问于2015-08-11得票数 6

1回答

用电火花将稠密向量转换成数据

、、、

首先，我尝试了下面链接中的所有内容来修复我的错误，但是没有一个有效。我正试图将密集向量转换为dataframe (最好是星火)，并附带列名并遇到问题。我在中的列是使用创建的一个向量，现在我想将它转换回一个dataframe，因为我想在向量中的一些变量上创建图。转换为Pandas dataframe，之后我无法将值拆分为不同的列</em

浏览 0提问于2018-09-27得票数 3

回答已采纳

2回答

Spark unionAll多个数据帧

、、

sc.parallelize(1 to 4).map(i => (i,i*1000)).toDF("id","z")df1.unionAll(df2).unionAll(df3)Seq(df1, df2, df3)

浏览 3提问于2016-06-03得票数 49

回答已采纳

点击加载更多