在pyspark中，是df.select(column1，column2....)影响性能

在pyspark中，使用df.select(column1, column2...)语句会影响性能。df.select()操作会返回一个新的DataFrame，其中包含指定的列。这个操作会触发Spark的转换操作，即对DataFrame进行转换操作而不是执行实际的计算。

影响性能的原因主要有以下几点：

数据传输：在执行df.select()操作时，Spark需要将指定的列从存储中读取到内存中，这涉及到数据的传输过程。如果选择的列较多或者数据量较大，数据传输的开销会增加，从而影响性能。
内存占用：df.select()操作会创建一个新的DataFrame对象，该对象会占用一定的内存空间。如果选择的列较多或者数据量较大，会占用更多的内存空间，从而导致内存压力增大，影响性能。
磁盘IO：在执行df.select()操作时，如果数据不在内存中，Spark需要从磁盘中读取数据。如果选择的列较多或者数据量较大，会增加磁盘IO的开销，从而影响性能。

为了提高性能，可以考虑以下几点：

选择需要的列：只选择需要的列，避免选择不必要的列，可以减少数据传输、内存占用和磁盘IO的开销。
使用缓存：如果多次使用同一个DataFrame对象，可以考虑将其缓存到内存中，避免重复读取数据。
使用列索引：如果DataFrame对象已经缓存到内存中，可以使用列索引而不是列名来选择列，可以提高选择列的效率。
使用合适的数据存储格式：选择合适的数据存储格式，如Parquet、ORC等，可以提高数据的读取效率。
调整资源配置：根据实际情况，调整Spark的资源配置，如内存分配、并行度等，以提高性能。

对于pyspark中df.select()操作的性能优化，腾讯云提供了一系列的云原生产品和解决方案，如腾讯云Spark、腾讯云数据仓库等，可以帮助用户提高数据处理和分析的性能。具体产品和解决方案的介绍和链接地址如下：

腾讯云Spark：腾讯云提供的大数据计算服务，支持Spark框架，可以快速、高效地进行数据处理和分析。了解更多：腾讯云Spark
腾讯云数据仓库：腾讯云提供的大数据存储和分析服务，支持多种数据存储格式和计算引擎，可以满足不同场景下的数据处理需求。了解更多：腾讯云数据仓库

通过使用腾讯云的相关产品和解决方案，可以提高pyspark中df.select()操作的性能，并实现更高效的数据处理和分析。

使用PySpark和数据帧转换JSON，使数组元素位于根

、、、

我想重新组织下面的JSON，以便docs下的数组元素位于root下。示例输入 { "response":{"docs": [{ "column1":"dataA", "column2":"dataB" }, { "column1":"dataC", "column2":"dataD" }] } } 示例PySp

浏览 0提问于2018-09-19得票数 0

回答已采纳

1回答

浏览 92提问于2020-11-03得票数 0

回答已采纳

2回答

PySpark数据帧何时使用.select() Vs。.withColumn()？

、

我是PySpark新手，我发现在PySpark中有两种选择列的方法，一种是使用".select()“，另一种是使用".withColumn()”。据我所知，".withColumn()“在性能上更差，但除此之外，我不知道为什么有两种方法来做同样的事情。那么，何时我应该使用".select()“而不是".withColumn()”呢？我在谷歌上搜索过这个问题，但没有找到明确的解释。

浏览 9提问于2022-08-13得票数 0

回答已采纳

1回答

将嵌套字典键值转换为pyspark数据

、、、

我有一个Pyspark数据文件，看起来像这样：我希望提取"dic“列中的嵌套字典，并将它们转换为PySpark数据格式。如下所示：请告诉我如何做到这一点。谢谢!

浏览 2提问于2020-07-20得票数 2

1回答

使用regexp_extract从另一列中提取字符串

、、、、

我想从“column1”获得s的数据： sada/object=fan/sn=dadfs/s[0]=gsf,sdfs,sfdgs,/s[1]=dfsd,sdg,hte,/redirect=sdgfd/ 输出应该是s的值。 gsf,sdfs,sfdgs 我试着使用\，但它不起作用 REGEXP_EXTRACT(column1, 's\\[0\\] = ([^&]+)') 这是在PySpark。

浏览 5提问于2022-09-09得票数 0

2回答

如何从PySpark DataFrame的列中分离特定的字符并使用它们形成新的列？

、、

我对PySpark非常陌生，我真的很难理解如何使用它。在这种情况下，我必须将一个操作应用于PySpark DataFrame，该操作仅由column1组成，如下所示，并返回包含column1、column2和column3的新数据格式。 column1 column2 column3 'A123' '123' 'A' '321B' ---------> '321' 'B' 'C87

浏览 4提问于2020-11-05得票数 0

回答已采纳

1回答

Pyspark dataframe获取列的所有值

、、

我想要在pyspark dataframe中获取列的所有值。我做了一些搜索，但我从来没有找到一个有效和简短的解决方案。假设我想在名为"name“的列中获取一个值。我有一个解决方案： sum(dataframe.select("name").toPandas().values.tolist(),[]) 它可以工作，但效率不高，因为它会转换为熊猫，然后扁平化列表……有没有更好、更短的解决方案？

浏览 0提问于2019-09-06得票数 9

回答已采纳

1回答

爆炸阵列-(数据阵列) pySpark

、、、

我有这样的数据： +-----+--------------------+ |index| merged| +-----+--------------------+ | 0|[[2.5, 2.4], [3.5...| | 1|[[-1.0, -1.0], [-...| | 2|[[-1.0, -1.0], [-...| | 3|[[0.0, 0.0], [0.5...| | 4|[[0.5, 0.5], [1.0...| | 5|[[0.5, 0.5], [1.0...| | 6|[[-1.0, -1.0], [0...|

浏览 6提问于2016-10-18得票数 5

回答已采纳

2回答

pyspark: dataframe头部转换

、、、、

我正在将csv加载到pyspark dataframe中。我正在尝试删除列标题中的空格和更多特殊字符，如"("，")“和"/”。我可以删除列标题中的空格，如下所示。 for col in df.columns: df = df.withColumnRenamed(col,col.replace(" ", "").replace("(", "").replace(")", "").replace("/", "")) 但这并不管用

浏览 63提问于2020-12-15得票数 0

回答已采纳

2回答

预览火花放电外壳中的列

、、

简写版：如何预览火花放电外壳中的列？我有一个pyspark.sql.column.Column类型的对象pyspark.sql.column.Column，当我执行a.show()时，我得到了TypeError: 'Column' object is not callable。想知道是否有类似于熊猫功能的火花放电，这样我就可以在将列转换为pyspark之后使用show()。长版本：我有以下数据集为df +----------+-------------------+--------+ | number| p_efc_dtm|cus_type|

浏览 0提问于2018-03-09得票数 0

回答已采纳

3回答

使用pyspark将注释添加到单元表中

、、

我正在通过PySpark创建蜂窝表。是否有一种方法在写入蜂窝之前向每一列添加注释？示例： df.write.saveAsTable('mytablewithcomments') = df = spark.table('sometable') #添加注释

浏览 7提问于2019-11-18得票数 4

回答已采纳

1回答

PySpark:如何从两列中计算不同值的数目？

我有一个有两个列的DataFrame，id1, id2，我想要得到的是计数，这两个列的不同值的数量。本质上这是count(set(id1+id2))。我怎样才能用PySpark做到这一点呢？谢谢! 请注意，，这不是一个重复的，因为我希望PySpark计算count()。当然，获得两个列表id1_distinct和id2_distinct并将它们放到set()中是可能的，但在我看来，在处理大数据时，这并不是一个合适的解决方案，而且也不符合PySpark精神。

浏览 11提问于2021-05-16得票数 0

回答已采纳

1回答

如何从任何数据库表创建PySpark RDD？

由于我是星火社区的新手，任何人都能解释如何从数据库表创建PySpark RDD吗？我可以使用PySpark方法的textFile()方法从CSV文件创建SparkContext RDD。但我不知道从数据库表中创建PySpark RDD。

浏览 0提问于2018-02-10得票数 1

回答已采纳

1回答

如何在Pyspark中从MapType列中获取键和值

、、、

我尝试在PySpark中复制这个问题的解决方案(Spark < 2.3，所以没有map_keys)：下面的是我的代码(与上面链接的问题的df相同)： import pyspark.sql.functions as F distinctKeys = df\ .select(F.explode("alpha"))\ .select("key")\ .distinct()\ .rdd df.select("id", distinctKeys.map(lambda x: "alpha".getItem(x).al

浏览 44提问于2020-05-20得票数 0

回答已采纳

3回答

PySpark将“map”类型的列转换为数据文件中的多列

、、、、

输入我有一个表单类型为Parameters的map列： from pyspark.sql import SQLContext sqlContext = SQLContext(sc) d = [{'Parameters': {'foo': '1', 'bar': '2', 'baz': 'aaa'}}] df = sqlContext.createDataFrame(d) df.collect() # [Row(Parameters={'foo': '1&#

浏览 5提问于2016-04-26得票数 22

回答已采纳

1回答

pyspark中的first_value窗口函数

、、、

我正在使用pyspark 1.5从Hive表中获取数据，并尝试使用窗口函数。根据的说法，存在一个名为firstValue的分析函数，它将为给定窗口提供第一个非空值。我知道它存在于蜂巢中，但我在pyspark中找不到它。鉴于pyspark不支持UserDefinedAggregateFunctions (UDAF)，有没有办法实现这一点？

浏览 4提问于2016-02-02得票数 6

回答已采纳

2回答

PySpark中的数据帧求和

、、

我的数据框看起来像- id product amount 1 a 100 2 b 300 3 c 400 4 d 100 我的最终数据框应该是- id product amount total 1 a 100 900 2 b

浏览 25提问于2019-11-24得票数 0

1回答

如何在Scala中以分数图的形式获取不同的值？

、、

我想在Scala中对我的数据帧进行分层采样。我的dataframe只有一列，我想为它形成一个分数映射。我可以在pyspark中实现，但在Scala中会出错。以下是我在Scala中尝试的内容： import org.apache.spark.sql.functions.{lit} val fractions = pqdf.select("vin").distinct().withColumn("fraction", lit(0.001)).rdd.collect().toMap 它错误地说： Error:(25, 100) Cannot prove that or

浏览 87提问于2018-06-07得票数 0

1回答

如何在火花放电中隐藏字符串，而不显示日期？

、

我有一篇专栏文章，内容包括“2018年1月”、“2019年3月”、“2016年12月”。我想把这个转换成日期类型(MMM yyyy)。当我使用pyspark进行时，dataframe结果还包括类似于日期(2018-1)。怎样才能摆脱约会？ from pyspark.sql import SparkSession from pyspark import SparkContext, SparkConf from pyspark.sql.functions import to_date conf = SparkConf().setMaster("local").setAppNam

浏览 2提问于2020-05-01得票数 0

回答已采纳

2回答

Pyspark -如何从DataFrame列中获取随机值

、、

我在一个DataFrame中有一列，我需要在Pyspark中选择3个随机值。有没有人能帮帮我-我，好吗？ +---+ | id| +---+ |123| |245| | 12| |234| +---+ 愿望：从该列获得3个随机值的数组： **output**: [123, 12, 234]

浏览 0提问于2017-10-04得票数 5

回答已采纳

1回答

Pyspark实现

、、

我被困在一个问题中，我想要做一个PCA在一个Pyspark列。列的名称是“特性”，其中每一行都是一个SparseVector。这就是流程： Df - pyspark df的名称特征-列的名称 rdd的片段 [行(features=SparseVector(2，{1:50.0})] 行(features=SparseVector(2，{0:654.0，1:20.0})) from pyspark.mllib.linalg.distributed import RowMatrix i = RowMatrix(df.select(‘features’).rdd) ipc = i.co

浏览 4提问于2019-11-19得票数 2

1回答

pyspark有没有org.apache.spark.functions.transform的等价物？

、、、

org.apache.spark.functions.transform将一个函数应用于数组的每个元素(在Spark3.0中是新的)，然而，pyspark docs没有提到等效的函数 (有pyspark.sql.DataFrame.transform -但它用于转换DataFrames，而不是数组元素)

浏览 12提问于2020-12-06得票数 0

1回答

在读取pyspark中的csv时，SQLContext对象没有读取的属性

、、

我将csv文件加载到pyspark中，如下所示(在pyspark shell中)： >>> from pyspark.sql import SQLContext >>> sqlContext = SQLContext(sc) >>> df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load('data.csv') 但是我得到了这个错误： Traceback (most recent c

浏览 0提问于2015-10-06得票数 4

回答已采纳

1回答

如何将Hive表转换为MLlib LabeledPoint？

、、、、

我使用Impala构建了一个包含目标和数百个功能的表。我想用星火MLlib训练一个模特。我理解，为了通过星火运行分布式监督模型，数据需要以几种格式之一。在我看来，LabeledPoint是最直观的。使用PySpark将Hive表转换为标记点的最有效方法是什么？

浏览 1提问于2016-02-23得票数 0

回答已采纳

1回答

如何在PySpark 2.x中使用trim？

、

代码为： from pyspark.sql import functions as F df = df.select(F.trim("MyColumn")) 错误是： Py4JError: An error occurred while calling z:org.apache.spark.sql.functions.trim. Trace: py4j.Py4JException: Method trim([class java.lang.String]) does not exist PySpark 2.x中是否不推荐使用trim？我不明白为什么它不能工作，而同一名称空间中的

浏览 4提问于2018-10-02得票数 6

1回答

SELECT子句中忽略了转义的单引号

、、

不确定为什么转义的单引号没有出现在SQL输出中。最初在Jupyter notebook中尝试过，但在下面的PySpark shell中重现了它。 $ pyspark SPARK_MAJOR_VERSION is set to 2, using Spark2 Python 3.6.3 |Anaconda custom (64-bit)| (default, Oct 13 2017, 12:02:49) [GCC 7.2.0] on linux Using Python version 3.6.3 (default, Oct 13 2017 12:02:49) SparkSession avai

浏览 181提问于2021-04-26得票数 0

回答已采纳

3回答

查看Spark Dataframe列的内容

、、、

我使用的是Spark 1.3.1。我正在尝试查看Python中Spark dataframe列的值。有了Spark dataframe，我可以使用df.collect()来查看数据帧的内容，但在我看来，Spark dataframe列还没有这样的方法。例如，数据帧df包含一个名为'zip_code'的列。所以我可以做df['zip_code']，它会变成一个pyspark.sql.dataframe.Column类型，但是我找不到一种方法来查看df['zip_code']中的值。

浏览 1提问于2015-06-30得票数 43

回答已采纳

1回答

pyspark :在pyspark中创建新列时出错

、、、

我有一个pyspark数据帧 a = [ (0.31, .3, .4, .6, 0.4), (.01, .2, .92, .4, .47), (.3, .1, .05, .2, .82), (.4, .4, .3, .6, .15), ] b = ["column1", "column2", "column3", "column4", "column5"] df = spark.createDataFrame(a, b) 现在，我想基于以下条件创建一个新列 df.withColu

浏览 0提问于2020-09-25得票数 1

2回答

如何将pyspark dataframe列转换为numpy数组

、、、

我正在尝试将一个大约有9000万行的pyspark dataframe列转换成一个numpy数组。我需要数组作为scipy.optimize.minimize函数的输入。我尝试过转换为Pandas和使用collect()，但这些方法非常耗时。我是PySpark的新手，如果有更快更好的方法，请帮助我。谢谢这就是我的数据帧的样子。 +----------+ |Adolescent| +----------+ | 0.0| | 0.0| | 0.0| | 0.0| | 0.0| | 0.0| | 0.0|

浏览 138提问于2019-09-30得票数 3

回答已采纳

1回答

如何更新Pyspark中的嵌套字段值

、、

我一直在尝试更新Pyspark中嵌套的字段值。我遵循了给出的答案，但没有达到我想要的水平。 json data { "documentKey": { "_id": "1234567" }, "fullDocument": { "did": "1fcee68a43c500e0", "sg": { "media_ended_timestamp": 1626940125,

浏览 1提问于2021-07-22得票数 0

回答已采纳

1回答

PySpark:扁平结构

、、

是否有一种方法可以使struct对象在PySpark中扁平？ root |-- key: struct (nullable = true) | |-- id: string (nullable = true) | |-- type: string (nullable = true) | |-- date: string (nullable = true) 我找到了这样的帖子：是相似的，只是我不知道如何把答案从火花翻译到PySpark。解决方案：对于其他人，下面是我正在寻找的完整代码解决方案： df.select(col("key.id"),

浏览 0提问于2020-01-22得票数 0

回答已采纳

1回答

如何在pyspark中实现不带聚合函数的数据透视表

、

我在pyspark中有一个这样的数据帧。 |--------------|----------------|---------------| | col_1 | col_2 | col_3 | |-----------------------------------------------| | 1 | A | abd | |-----------------------------------------------| | 1 | B

浏览 1提问于2020-03-21得票数 0

2回答

如何获取dataframe-js中的所有列值作为数组？

我使用创建一个dataframe，如下所示： const df = new DataFrame({ column1: [3, 6, 8], // <------ A column column2: [3, 4, 5, 6], }, ['column1', 'column2']); 如何访问/打印包含所有column1值(在本例中为[3, 6, 8])的数组？

浏览 30提问于2019-10-30得票数 0

回答已采纳

1回答

使用csv文件中的pyspark数据绘制RDD数据

、、、、

我刚刚开始在非常大的csv文件上使用pyspark。我使用的是Spark版本2.1.0。我希望从一个.csv文件中读取数据，并将其加载到中，然后在过滤特定的行之后，使用matplotlib绘制2列(纬度和经度)，将其可视化。这就是我到目前为止所做的：进口包装： from pyspark.sql import SparkSession from pyspark.conf import SparkConf from pyspark.sql.functions import * import matplotlib.pyplot as plt 构建火花会话： spark = SparkSessio

浏览 0提问于2017-06-28得票数 1

1回答

PySpark有效方式N个最大元素

、

所以我必须从这个数据集中得到n个(默认3个)最大的元素。如何在PySpark中以可接受的方式执行此操作？我知道如何在Pandas中做到这一点，但我想知道在PySpark中是如何高效完成的，或者是否可以高效完成。我的第一个想法是使用来自pyspark.sql.functions的最好的，如下所示 ls = [] cols = df_tmp.columns[:-1] for j in cols: max_v = df_tmp.where(df_tmp["Variable"] == j).select(F.greatest(*[F.col(col) for co

浏览 1提问于2019-11-09得票数 0

5回答

火花放电中柱的比较

、、

我正在开发一个包含n列的PySpark DataFrame。我有一组m列(m < n)，我的任务是选择其中包含最大值的列。例如：输入: PySpark DataFrame，包含： col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5] 输出： col_4 = max(col1, col_2, col_3) = [3,2,5] 正如问题中所解释的那样，熊猫身上也有类似的东西。在PySpark中是否存在这样的方法，或者我是否应该将PySpark df转换为Pandas，然后执行这些操作？

浏览 7提问于2016-06-07得票数 29

回答已采纳

1回答

列中的搜索值

、、

我想搜索列是否包含值。 import pyspark from pyspark.sql import SparkSession from pyspark.sql.types import * import pandas as pd df_init = pd.DataFrame({'id':['1', '2'], 'val':[100, 200]}) spark = SparkSession.builder.appName('pandasToSparkDF').getOrCreate() mySchema

浏览 16提问于2020-09-29得票数 1

回答已采纳

1回答

Pyspark:从列表的RDD创建spark数据帧，其中列表的一些元素是对象

、、、、

我正在尝试将pandas.DataFrame代码转换为等效的pyspark DataFrame。我有一个以下格式的RDD。 myRdd = [[1, 'a', {'a':[1, 2]}], [2, 'b', {'c': 1, 'd':3}], [3, 'c', {}]] columnNames = ['sl', 'name', 'params'] 内部列表中的第三个元素没有特定的结构。在pandas数据帧中，我可以

浏览 1提问于2018-04-07得票数 1

1回答

如何在PySpark数据帧显示中设置显示精度

、

调用.show()时如何在PySpark中设置显示精度考虑以下示例： from math import sqrt import pyspark.sql.functions as f data = zip( map(lambda x: sqrt(x), range(100, 105)), map(lambda x: sqrt(x), range(200, 205)) ) df = sqlCtx.createDataFrame(data, ["col1", "col2"]) df.select([f.avg(c).alias(c) for c i

浏览 5提问于2018-02-17得票数 13

回答已采纳

3回答

Python/pyspark数据框重新排列列

、、

我有一个python/pyspark格式的数据框，其中包含列id、time、city、zip等...... 现在，我向该数据框添加了一个新的列name。现在，我必须以这样的方式排列列：name列在id之后我已经做了如下工作 change_cols = ['id', 'name'] cols = ([col for col in change_cols if col in df] + [col for col in df if col not in change_cols]) df = df[cols] 我得到了这个错误 pyspark.

浏览 0提问于2017-03-21得票数 46

回答已采纳

1回答

基本的Pyspark问题-- If Else等价

、

嗨，非常基本的问题，但我是Pyspark的新手。我希望我的函数根据输入参数返回不同的列，但我不知道如何做到这一点。Python的等价物是： if model='a': return df[[colA,colB]] if model ='b': return df[[colA,colB,colC]] 提前感谢

浏览 31提问于2021-10-01得票数 0

回答已采纳

2回答

当数组较大时，在Scala中从Spark Dataframe中的数组列创建单独的列

、

我有两列:一列是Integer类型，另一列是linalg.Vector类型。我可以将linalg.Vector转换为数组。每个数组有32个元素。我希望将数组中的每个元素转换为列。所以输入是这样的： column1 column2 (3, 5, 25, ...., 12) 3 (2, 7, 15, ...., 10) 4 (1, 10, 12, ..., 35) 2 输出应为： column1_1 column1_2 column1_3 ......... column1_32 column

浏览 0提问于2018-09-11得票数 2

1回答

访问jupyter中的数据帧元素pyspark

、、、

我对spark和pyspark是个新手。我的DataFrame由几列组成，在一些列中，是数组或子数据帧。 df的printSchema在中我的问题是如何访问等元素谢谢您的帮助

浏览 19提问于2018-03-01得票数 0

回答已采纳

1回答

如何在读取pyspark dataframe中的csv文件时读取选定的列？

、、、

在读取csv文件时，我正在尝试读取选定的列。假设csv文件有10列，但我只想读取5列。有没有办法做到这一点？ Pandas我们可以使用usecols，但是在pyspark中也有可用的选项吗？ df=pd.read_csv(file_path,usecols=[1,2],index_col=0) Pyspark： ?

浏览 6提问于2021-03-04得票数 1

1回答

动态地在多个列上操作

、、、

在pyspark中，假设我有名为'a1','a2','a3'...'a99'的列的dataframe，如何对每个列应用操作来动态创建具有新名称的新列？例如，获取新列(如sum('a1') as 'total_a1' , ... sum('a99') as 'total_a99' )。

浏览 0提问于2019-02-28得票数 1

2回答

在Pyspark中创建JSON

、、

我在PySpark中有一个DF |id |Name |Age | |-- |------ |--- | |1 |John |31 | |2 |Sam |34 | |3 |Chris |28 | 我需要换到DF下面， |id | Name | Age | | ------ | ---------------- | ----------- | |{'v':1} | {'v':'John'} | {'v':31}

浏览 2提问于2021-03-02得票数 0

回答已采纳

1回答

pyspark dataframe“条件应为字符串或列”

、、、

我无法对数据帧使用筛选器。我一直收到错误“TypeError(”条件应该是字符串或列“)” 我已经尝试更改滤镜以使用col对象。尽管如此，它还是不起作用。 path = 'dbfs:/FileStore/tables/TravelData.txt' data = spark.read.text(path) from pyspark.sql.types import StructType, StructField, IntegerType , StringType, DoubleType schema = StructType([ StructField("from

浏览 21提问于2019-02-02得票数 0

回答已采纳

1回答

Pyspark:获取嵌套结构列的数据类型

、、、

我目前正在处理一些相当复杂的json文件，我应该将它们转换并写入增量表。问题是，当涉及到列的数据类型时，每个文件都有细微的差异。有人能给我解释一下检索嵌套结构列的数据类型的一般方法吗？在互联网上，我只能找到如何对它们做选择：https://sparkbyexamples.com/pyspark/pyspark-select-nested-struct-columns/ 如果我有这样的格式： ? 我怎样才能获得数据类型，比如说，姓氏？编辑: Json文件当然已经写在dataframe中，我的问题是如何查询dataframe以检索数据类型非常感谢!

浏览 42提问于2021-10-22得票数 0

2回答

在pyspark中旋转行的值

我目前正在清理一个数据集，我一直在尝试使用pyspark来做这件事。数据从csv读取到dataframe中，我需要的值在它们各自的行中，但对于某些行，值是混合的。我需要轮换这些行的值，以便这些值位于正确的列中。例如，假设我有以下数据集： +-------+-------+-------+ | A | B | C | +-------+-------+-------+ | 2 | 3 | 1 | +-------+-------+-------+ 但是第一行中的值应该是 +-------+-------+-------+ | A | B

浏览 18提问于2020-02-07得票数 0

回答已采纳

1回答

将重复值转换为两个不同的列

、、、、

我将以下数据导入到PySpark数据框架中： from pyspark.sql import SparkSession from pyspark.sql.functions import * from pyspark.sql.types import * spark = SparkSession.builder.master("local[4]").appName("pyspark").getOrCreate() df = spark.read.csv("example.csv") df.show() #+--+------+ #|id|ans

浏览 10提问于2022-05-05得票数 1

回答已采纳