将PySpark数据框列拆分为多个

文章/答案/技术大牛

发布

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrameO: pyspark.rdd.PipelinedRDD 如何在拆分此列的同时保持数据框属

浏览 0提问于2016-06-22得票数 0

1回答

、、

我有一个pyspark dataframe列，其中包含以下数据。 Column 1B1D2 我必须根据逗号将这一列分成2列。输出应如下所示。Column 2 B1 D2 我尝试使用split()函数，但是我的B1和D2被填充到第一列而不是第二列

浏览 5提问于2020-04-11得票数 1

回答已采纳

1回答

将字典从spark数据帧中的StringType列中分离出来

、、

日志数据存储在单个字符串列中，但它是一个字典。我如何拆分字典中的条目来阅读它们。['maine','14','']]).toDF('LogData','State','Orders','OrdDate') 我想要做的是将spark表读取到数据帧中，找到最大事件时间戳，找到具有该时间戳的行，然后计数并仅将这些行读取到具有数据列的新数据</em

浏览 39提问于2020-07-01得票数 1

回答已采纳

1回答

Javascript Regexp被多个字符拆分并保持分隔符

、

我试图将下面的字符拆分为多个字符，并将它们保存在数组中。"arg&&(arg||(!

浏览 4提问于2013-09-30得票数 0

回答已采纳

2回答

Dataproc未使用pyspark并行处理大数据

、、

我开发了一个pyspark代码，它从GCS读取一个csv文件。csv文件的大小约为30G。csv(infile)df_raw = df_raw.repartition(20, "Product")下面是我如何将pyspark启动到dataproc中： gcloud dataproc jobs submit pyspark gs://<my-gcs-bucket>/<my-pr

浏览 4提问于2021-05-03得票数 0

1回答

拆分数据列和订单列

、

如何将数据划分为不同的类别，然后按特定列的降序排序每个类别。我先把车拆了那如果我做了按顺序错误(Mpg)：找不到对象

浏览 5提问于2015-05-25得票数 2

回答已采纳

1回答

在Scala中拆分列

嗨，我想分拆一个专栏。数据集样本： 2019 10并在一年内进一步统计所有的推特(我知道如何在这里使用reduceByKey(+) ) 如何分割星火中的列？我不想使用数据帧。

浏览 4提问于2020-05-27得票数 2

3回答

如何将DataFrame中的字符串列拆分为多个列？

这是当前的代码： .builder\我该怎么办？

浏览 0提问于2020-04-20得票数 3

回答已采纳

1回答

如何读取火花流的分区列

、、、

我有一个火花流工作，在这里我流数据，并将其划分为一个或多个列，并存储在gcs桶中。下面是示例代码，我将其按团队划分并存储在gcs桶中。from pyspark import SparkContext spark = SparkSession.builder.getOrCreateparquet').outputMode('append').option('path'

浏览 5提问于2022-11-29得票数 0

回答已采纳

1回答

如何将一列拆分为多个列，这些列的名称会发生变化

、、、

我将一个数据框定义为一个“函数”，其中数据框中每个列的名称不断变化，因此我不能指定该列的名称，然后将其拆分为多个列。例如，我不能一边说df ['name']，一边把它分成许多列。此数据帧的列数和行数不是恒定的。我需要将包含多个项目的任何列拆分为多个组件(列)。例如：这是我

浏览 14提问于2020-05-01得票数 0

回答已采纳

1回答

使用timeseries列创建PySpark数据格式

、、、、

我有一个初始的PySpark数据，我希望从date列中获取MIN和MAX，然后使用来自初始数据的MIN和MAX创建一个新的带有timeseries (每日日期)的PySpark数据。然后，我将使用它加入我的初始数据并查找丢失的天数( inital列的其余部分为null)。我尝试了许多不同的方法来构建timeseries，但它在PySpark中似乎不起作用。有什么建议吗？

浏览 8提问于2022-05-03得票数 1

回答已采纳

1回答

将大型数组列拆分为多个列- Pyspark

我有：| id| var1| var2|| a|[1,2,3]|[1,2,3]|+---+-------+-------++---+-------+-------+-------+-------+-------+-------++---+-------+-------+-------+-------+-------+------

浏览 6提问于2018-08-02得票数 5

回答已采纳

1回答

按日期将吡火花数据集拆分为两个

、、

我有pyspark数据集，我想按照datetime列将其划分为列车和测试数据集，其中，训练数据集的日期时间应该小于日期时间列的中位数，而测试数据集应该有其余的数据集。我尝试按datetime列对dataset进行排序，并选择上半部分。但是这只解决了火车部件的问题，我不知道如何从PySpark中的初始数据集中“减除”训练数据集。如果PySpark与

浏览 0提问于2019-08-21得票数 0

回答已采纳

1回答

火花放电的UDF能返回与列不同的对象吗？

、、、

我想将一些函数应用到pysaprk dataframe的列中，这是一个用UDF实现这一点的管理方法，但是我希望返回是另一个对象，而不是dataframe的一个列、一个熊猫数据框、一个python列表等等我使用分类器将每一列划分为类，但我希望结果是类的摘要，而不是修改，我不知道这是否适用于UDF。我的代码是这样的import pandas as pdfrom pyspark

浏览 0提问于2018-12-18得票数 1

回答已采纳

0回答

C#零基础学习笔记001-数据类型和变量？

、

数据类型分为：值类型，引用类型； - int，long等； * 引用类型：堆存储； - string拆箱：将引用类型转换成值类型，必须显示转换；

浏览 165提问于2020-12-23

1回答

如何导入大型csv文件并执行操作

、

pd.read_csv('myfile.csv', low_memory=False, header=None, names= ['column1','column2', 'column3'])即使将low_meemory

浏览 0提问于2019-04-15得票数 0

1回答

Pyspark数据帧过滤语法错误

、

我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前，我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作，我从多个.JSON文件创建了初始数据帧。此数据框已子集，因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止，我已经尝试了两种不同的方法，使用sqlContext和使用<e

浏览 0提问于2017-07-27得票数 0

回答已采纳

1回答

列表框的分区？

、、、

是否可以将列表框划分为多个列。如果是，在Silver light中使用哪个属性？

浏览 0提问于2009-07-24得票数 1

回答已采纳

1回答

如何使用scala在spark dataframe中使用正则表达式？

、、

在我的例子中，我有一个包含一些生物学数据的数据框架，这些数据是:蛋白质名称、ecnumber (可以是多个)和蛋白质结构域(也可以是多个结构域)。数据框是一个包含所有数据的一列，我想将其拆分为三列，但问题是，如果拆分一行(包含多个ECnumber)，则第二个ECnumber将转到第三列，然后域将消失。

浏览 0提问于2020-06-22得票数 0

3回答

用不一致的分隔符将日期划分为年、月和日

、、

我正在尝试将我的日期列(现在是字符串类型)拆分为3列(年份、月份和日期)。我使用(PySpark)：df= df.withColumn('Year',如何使用和或操作将日期拆分为“-”或“/”，这取决于用例。另外，当它被'/‘分隔时，格式是mm/dd

浏览 4提问于2017-05-04得票数 1

回答已采纳

点击加载更多

使用map函数将Spark Dataframe转换为RDD