如何在pyspark dataframe中拆分一列并保留其他列？_如何在pyspark dataframe中将一列的字典列表拆分成两列？_spark:只拆分dataframe中的一列，并保持其余列不变 - 腾讯云开发者社区

、、

split into split_e_cols# I hope the result dataframehas keep_cols + split_res_cols 我想拆分列分成多列并保留列和同时。range(len(len(split_e_col

浏览 139提问于2021-03-01得票数 1

回答已采纳

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrameO: pyspark.rdd.PipelinedRDD 如何在拆分此列

浏览 0提问于2016-06-22得票数 0

2回答

如何在pyspark中合并重复的列？

、、

我有一个pyspark dataframe，其中一些列具有相同的名称。我想将具有相同名称的所有列合并到一列中。例如，输入dataframe： ? 我如何在pyspark中做到这一点？

浏览 57提问于2021-06-18得票数 2

回答已采纳

1回答

操作具有不同开始日期的时间序列

、

现在，我想通过将这两个序列索引到2002年(我第一次拥有这两个序列的数据)来比较这两个序列的累积增长，并计算比率。做这件事最好的方法是什么？

浏览 19提问于2019-09-25得票数 0

2回答

将dataframe中的列拆分为包含文本而不是数字的列和包含R中没有文本的数字的列

、、

more from others","","","")df<-cbind.data.frame(a,b,c)我想保留数据预期产出：我认为有意义的是以下几点：从步骤1到新的dataframe的子集列，让我们调用这个df

浏览 3提问于2022-02-02得票数 0

1回答

如何根据行的内容拆分pyspark数据

、、、、

我想根据DataFrame中一行的第一个字符来分割文件。原始数据有一列，数据包括输入样例文件(Pyspark)：我想要一个DataFrame文件名作为数据的分割。文件名放在DataFrame的column2中

浏览 3提问于2019-10-10得票数 1

回答已采纳

1回答

如何在pyspark中使用pandas_udf拆分dataframe中的字符串

、、

我只有一列的dataframe。我想使用pyspark中的pandas_udf拆分字符串。因此，我有以下代码： from pyspark.sql.functions import pandas_udf, PandasUDFType def split_msg

浏览 17提问于2019-10-03得票数 0

回答已采纳

2回答

pyspark数据帧中所有列的总计数为零

、、

我需要找出pyspark dataframe中所有列中0的百分比。如何在数据帧中找到每一列的零计数？附言:我尝试过将数据帧转换为pandas数据帧，并使用了value_counts。

浏览 0提问于2018-08-20得票数 4

1回答

在CSV文件中处理JSON对象并保存到PySpark DataFrame

、、、、

我有一个CSV文件，它包含JSON对象以及其他数据，比如String，Integer。如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。from pyspark.sql.types import *# Initializing SparkSession and setting up theoptions(header="true", delimiter = ',', inferschema=

浏览 2提问于2020-09-23得票数 1

1回答

在PySpark中连接列表

在我的Spark Dataframe中，有一列是字符串"1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0""1 1 1 1 0 0 0 0 0"我希望从这一列的每一行中收集字符串，并通过连接创建一个单

浏览 3提问于2018-07-23得票数 0

3回答

移除化工厂中列中的逗号。

、、、

我的DataFrame中有两个列，第一列和第二列。两列都包含空单元格。中每一行的TF。为此，我将每行中的字符串列表拆分为基于逗号的单词列表。我查看了以下删除, 的链接，并尝试了它移除逗号，但之后我无法根据逗号进行拆分。from pyspar

浏览 5提问于2017-10-23得票数 0

回答已采纳

2回答

将Numpy数组加载到单个Pandas DataFrame列

、、、、

我正在使用PySpark并尝试使用CSV来存储我的数据。我将我的Numpy数组转换为DataFrame，格式如下： label | 0 1 2 4 ... 768 1 | 0.12 0.23 0.31 0.72 ... 0.91 依此类推，将数组中的“行向量”本身的每个值拆分为单独的列。该格式与Spark不兼容，它需要在一列</

浏览 18提问于2020-10-01得票数 1

2回答

、、、

我见过许多针对scala或其他类型文件的解决方案。但如何推断模式，以加载DataFrame，一个csv文件，在python中与pyspark。df = spark.read.csv('dataset.csv') 如果我检查模式，所有列都是字符串。我可以一列一列地更改，但我想还有更好的方法。

浏览 6提问于2021-04-09得票数 0

1回答

动态列.withColumn Python DataFrame

、、、、

我想在我的星火DataFrame上动态地应用. list中的列名。from pyspark.sql.functions import col 现在，我想动态地对list matches中的每一列执行下面的操作 partyaddre

浏览 3提问于2020-04-21得票数 1

回答已采纳

2回答

在dataframe上用逗号替换点

、

我有一个大型的dataframe，它结合了来自多个excel (xlsx)文件的数据。问题是每一列带有十进制值的列都用点分隔，我需要用逗号替换每个点。我已经尝试过使用替换函数，但是一些列也包含字符串值。因此，我的问题是，如何在dataframe中的每一列上用逗号替换点，并保留字符串值？A栏：无数据(保存)

浏览 4提问于2022-10-24得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云