通过对列表中存储的字段宽度值进行切片/拆分，将apache-spark dataframe字符串列拆分为多个列

通过对列表中存储的字段宽度值进行切片/拆分，可以将Apache Spark DataFrame字符串列拆分为多个列。在Apache Spark中，可以使用withColumn()函数和split()函数来实现这个目标。

首先，使用withColumn()函数添加一个新的列，将原始字符串列拆分为多个子列。然后，使用split()函数将原始字符串列按照指定的分隔符进行拆分，并将拆分后的结果存储在新的列中。

以下是一个示例代码：

from pyspark.sql.functions import col, split

# 假设原始DataFrame为df，包含一个名为string_col的字符串列
# 假设字段宽度值存储在名为widths的列表中

# 定义一个函数，用于将字符串列拆分为多个子列
def split_string_column(df, col_name, widths):
    # 创建一个临时列，存储拆分后的结果
    temp_col = col_name + "_temp"
    
    # 使用withColumn()函数添加临时列，并将原始字符串列拆分为多个子列
    df = df.withColumn(temp_col, split(col(col_name), ""))
    
    # 根据字段宽度值对临时列进行切片/拆分，生成多个新列
    for i, width in enumerate(widths):
        # 创建新列名
        new_col_name = col_name + "_" + str(i+1)
        
        # 使用withColumn()函数添加新列，并将切片后的结果存储在新列中
        df = df.withColumn(new_col_name, df[temp_col].getItem(i*width:(i+1)*width))
    
    # 删除临时列
    df = df.drop(temp_col)
    
    return df

# 调用split_string_column()函数，将字符串列拆分为多个子列
df = split_string_column(df, "string_col", widths)

在上述代码中，split_string_column()函数接受一个DataFrame、字符串列名和字段宽度值列表作为输入。它首先创建一个临时列，将原始字符串列拆分为多个子列。然后，根据字段宽度值对临时列进行切片/拆分，生成多个新列。最后，删除临时列并返回拆分后的DataFrame。

这种方法适用于需要将字符串列按照固定宽度进行拆分的场景，例如处理定长格式的数据文件。对于不同的宽度值，可以根据实际情况进行调整。

推荐的腾讯云相关产品：腾讯云数据仓库 ClickHouse，产品介绍链接地址：https://cloud.tencent.com/product/ch

请注意，以上答案仅供参考，具体实现方式可能因实际情况而异。

页面内容是否对你有帮助？

有帮助

没帮助

通过对列表中存储的字段宽度值进行切片/拆分，将apache-spark dataframe字符串列拆分为多个列

、、

浏览 15提问于2018-07-12得票数 2

回答已采纳

2回答

Dataframe中的Scala转换和拆分字符串列到MapType列

、、

我有一个带有列的DataFrame，其中包含有字段的跟踪请求urls，如下所示+--------------------------------df.show(truncate = false)| request_uri +-----------基本上，我必须将字段名(分隔符= "&“)及其<em

浏览 4提问于2020-09-14得票数 1

回答已采纳

3回答

我如何循环字符串列表的映射(使用迭代器)，并用InputArray的值加载另一个字符串列表？

我如何在InputArray上迭代，并以相同的值加载另一个输入数组，除非在较低的情况下(我知道有一个字符串到load函数)？问题:如何迭代具有循环结构的字符串列表？

浏览 6提问于2014-06-09得票数 3

回答已采纳

2回答

为包含字符串列表的Pandas系列拆分多个字串为单独的单词

、、

我有一个，它将列值作为字符串列表。每个列表可能有一个或多个字符串。对于包含多个单词的字符串，我希望将它们拆分为单个单词，以便每个列表只包含单个单词。在下面的Dataframe中，只有sent_tags列有包含可变长度字符串的列表。DataFrame import pandas

浏览 1提问于2019-03-18得票数 3

回答已采纳

1回答

ASP.net --从代码后面传递列表到java脚本的最佳方法是什么？

、、

在javascript中，我希望将下拉列表中选定的值与后面的C#代码中的值列表进行比较。我尝试通过HiddenField传递一个字符串列表，但是我无法克服“无法获得未定义或空引用的属性”的问题。环顾Stackoverflow和其他地方，我尝试过以下代码的许多变体，但“拆分错误”使我陷入了困境。

浏览 0提问于2018-06-07得票数 1

回答已采纳

2回答

向pandas DataFrame添加维度

、

我有一个pandas DataFrame，它在其中一个字段中包含一个以竖线分隔的字符串。我已经将它拆分为apply中的一个列表，并将其添加到DataFrame中。以竖线分隔的字符串中的值的数量和内容各不相同。df = DataFrame([{'wibble'

浏览 1提问于2013-03-13得票数 1

回答已采纳

3回答

Pandas结果为多列

、

我有一个数据帧，我希望在其中对组中的值进行分组，然后将组中的值划分为多列。，获取"Value”字段的和，并获得新字段，每个字段包含组的ID值。目前，我可以这样做，但我正在寻找一种更清晰的方法：首先，我创建一个dataframe，其中包含每个组<e

浏览 6提问于2016-01-27得票数 9

回答已采纳

1回答

将dataframe列拆分为多个具有特定名称的列

、、、

我试图将dataframe列拆分为多个列，如下所示：总体上有三列。两个应该在新的dataframe中重命名，而第三个应该被拆分为新的列。拆分将使用一个特定的字符(例如":“)来完成。需要拆分的列可以有不同数量的”：“拆分

浏览 2提问于2021-01-29得票数 0

2回答

在Python中拆分.dat文件以绘制

、、

我有一个.dat文件，我想在文件中绘制一些数据。但它正在将每一行读成一组大的字母和数字。我想在“列”2、3和4(例如2012/9/22)中对第7和第8列绘制时间。我考虑使用拆分函数nom2=nom1.split()，但我说AttributeError: 'list' object has no attribute 'split'时出错了。下一个想法是试着用空格来描绘，但对如何解决这个问题却没有

浏览 1提问于2015-02-23得票数 0

回答已采纳

1回答

Pandas按列值将数据帧拆分为两个数据帧-不使用GroupBy

、

我想根据列值将我的Pandas数据帧按行拆分为两个数据帧。对于可以按列值对行进行分组的情况，有许多问题和答案。但是，在我的示例中，我希望在特定列中具有唯一字符串的行上拆分我的数据帧。我的计划是获取具有唯一列值的行<em

浏览 12提问于2020-08-26得票数 0

回答已采纳

4回答

第一个单词的Perl拆分函数

、

我对Perl编程完全陌生。我正在尝试拆分函数。这是我的代码：{ print $file_name;因此，我试图得到的输出输出为22drive在这里，我试图得到第二个词，但它并没有给出预期的输出。请任何人建议并帮助我。

浏览 1提问于2015-08-11得票数 1

回答已采纳

1回答

您应该如何使用`min_itemsize`参数的`HDFStore.append`？

、、

我想要限制HDF存储中字符串列的大小。你应该用min_itemsize来做这件事。这些文件指出： HDFStore的底层实现对字符串列使用固定的列宽度(项目大小)。字符串列项大小计算为第一个附加项中传递给HDFStore的数据长度(对于该列)的最大

浏览 0提问于2019-01-14得票数 0

1回答

如何在元素分隔符上拆分列表

、、

是否有简洁和优雅的方法可以通过分隔元素将Python中的列表拆分为子列表，例如['a', 'delim', 'b'] -> [['a'], ['b']]ldat = ['a','b'itertools.groupby(ldat, lambda z: z == dlim) if not x]

浏览 2提问于2017-12-05得票数 11

1回答

h2o dataframe类型的内部字符串到int映射总是相同的吗？

看看H2O的categorical_encoding enum类型的文档，它说枚举或Enum:保留数据集原样，在内部将字符串映射到整数，并使用这些整数进行拆分--如果nbins_cats太小而无法解决所有级别，则通过序号性质进行拆分，或者通过位集进行完美的组拆分。每个类别都是一个单独的类别；其名称(或编号)与此无关。例如，在字符串映射到Enum的</e

浏览 0提问于2019-04-03得票数 0

回答已采纳

4回答

ValueError: TextEncodeInput必须是Union[TextInputSequence，Tuple[InputSequence，InputSequence]] -标记BERT / Distilbert错误

、、、、

def split_data(path): return train_test_split(df , test_size=0.1, random_state=100) train_texts, train_labels = train['text'].to_list(), train['sentiment'].to_list() test_texts, test_labels = test['text'].to_list

浏览 5提问于2020-08-21得票数 12

3回答

Python，排序

、、

num名称num输入：str|1|30str|1|30按第二个字段排序(20，30)：str|1|30

浏览 3提问于2010-09-10得票数 1

回答已采纳

1回答

将列表数组拆分为指定的子数组

、、、

用于测试列车的分裂阵列我在这里的目标是将列划分为独立变量和因变量组，并在其上运行测试培训。我能够将dataframe转换为一个列表数组这实际上给出了每一行中每个值的列表。如果我要在这个数组上使用np.s

浏览 1提问于2022-04-21得票数 0

1回答

Solr Facet多个带有逗号分隔值的单词

、、

我正在将数据从mysql拉到solr中。其中一个字段是使用group_concat函数生成的，该函数产生一个逗号分隔的字段，该字段列出了事件的所有波段。当时，我认为这是为一次活动存储多个乐队的最好方式。但是，我发现我不能针对所有事件对此查询进行切面。我已经将band字段设置为string，并将multivalued设置为true。<fie

浏览 0提问于2012-03-29得票数 2

回答已采纳

2回答

如何处理mysql SELECT中的空值...OUTFILE语句与字段一起使用？空值当前正在被截断

、、、

BY '"' LINES TERMINATED BY '\r\n'但是，包含双引号的列将在excel中拆分为多行/多列。这是因为excel要求将</

浏览 3提问于2011-01-04得票数 14

1回答

加入不同文本框的字符串并再次拆分

、

在使用1 Windows应用程序时，在订货时需要保存产品的重量、高度、宽度、颜色、长度、材料等规格，因为每个产品都有不同的规格，因此无法确定和提供数据库中的字段。) 而不是将产品规范保存在单独的列中。我想将这些名称&值保存为字符串。SQL数据库中的"WEIGHT=10;WIDTH=5;LENGTH=5“(TEXT或VARCHAR

浏览 0提问于2014-10-16得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

通过对列表中存储的字段宽度值进行切片/拆分，将apache-spark dataframe字符串列拆分为多个列

相关·内容

通过对列表中存储的字段宽度值进行切片/拆分，将apache-spark dataframe字符串列拆分为多个列

Dataframe中的Scala转换和拆分字符串列到MapType列

我如何循环字符串列表的映射(使用迭代器)，并用InputArray的值加载另一个字符串列表？

为包含字符串列表的Pandas系列拆分多个字串为单独的单词

ASP.net --从代码后面传递列表到java脚本的最佳方法是什么？

向pandas DataFrame添加维度

Pandas结果为多列

将dataframe列拆分为多个具有特定名称的列

在Python中拆分.dat文件以绘制

Pandas按列值将数据帧拆分为两个数据帧-不使用GroupBy

第一个单词的Perl拆分函数

您应该如何使用`min_itemsize`参数的`HDFStore.append`？

如何在元素分隔符上拆分列表

h2o dataframe类型的内部字符串到int映射总是相同的吗？

ValueError: TextEncodeInput必须是Union[TextInputSequence，Tuple[InputSequence，InputSequence]] -标记BERT / Distilbert错误

Python，排序

将列表数组拆分为指定的子数组

Solr Facet多个带有逗号分隔值的单词

如何处理mysql SELECT中的空值...OUTFILE语句与字段一起使用？空值当前正在被截断

加入不同文本框的字符串并再次拆分

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐