如何消除PySpark DataFrame列中条目的前几个字符？

、、、、

所以我有一个给定的PySpark DataFrame，比如df，如下所示： df.show()||+--------------------+-------------------+ 在series列中，我想去掉XXXX-子串(即长度为5个字符)，它对于该列的每个条目都是相同的，从而获得下面的DataFra

浏览 101提问于2021-01-15得票数 0

回答已采纳

2回答

如何修改/转换数据框中的列？

、、、

我有一个使用以下命令创建的pyspark.sql.dataframe.DataFrame实例如何修改此列，使其只取其中的前4个字符，并丢弃其余的字符？如何将此列的类型从字符串转换为日期？在graph

浏览 0提问于2016-08-20得票数 4

回答已采纳

2回答

如何拆分dataframe列值，并将前两个字符串仅取到新列

、

我在dataframe中有一个列，它的字符串值如下"Software part not present"nullnull null

浏览 5提问于2022-09-30得票数 0

1回答

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

、、、、

我继承了一个修改pyspark dataframe中一些字符串的程序。其中一个步骤涉及从字符串中的一些单词中删除双/三/等字母，以及一个额外的例外列表，即使它们有重复的字母也会保持不变。目前，这是通过将dataframe转换为具有udf的pandas，然后在读回pyspark之前对生成的pandas dataframe中的字符串应用自定义函数来完成的。我需要直接在pysp

浏览 7提问于2021-03-15得票数 0

回答已采纳

1回答

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

、、、、

我有一个带有一条记录的输入csv文件。当我在pyspark中读取文件时，dataframe分别有三列a、b、c。A和c有数据，b有4个空格的数据。将文件写入csv时，4个空格的数据丢失，它将以空字符串的形式写入文件。aaaa, , bbbbaaaa,"", bbbb 如何按原样保留这4个空间的数据？

浏览 19提问于2020-02-20得票数 0

4回答

在一辆火花放电机里修剪一下

、、

我有一个具有下面数据(所有列都有字符串数据类型)的Pyspark (原始Dataframe)。在我的用例中，我不确定输入数据中有哪些列。用户只需将dataframe的名称传递给我，并要求我修剪这个dataframe的所有列。1504 " Test"不管怎样，我可以不依赖于这个dataframe中</

浏览 2提问于2017-07-31得票数 0

1回答

如何将所有的日期格式转换为日期列的时间戳？

、、、

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的格式，但如何转换为正确的时间戳，如

浏览 16提问于2020-12-30得票数 2

4回答

如何解析电火花中的twitter日期时间字符串？

、、、

我的数据在pyspark ('pyspark.sql.dataframe.DataFrame')中。其中一列以Twitter字符串格式存储日期时间。我为python找到了几个解决方案，但是没有具体的解决方案。这是列的样子。created_at', from_unixtime(unix_timestamp('created_at', '%a %b %d %H:%M:%S %z

浏览 0提问于2019-05-03得票数 1

回答已采纳

2回答

Pyspark中的填充

、

我有一个具有以下数据(所有列都有字符串数据类型)的Pyspark (原始数据)： 1 103我需要在value列中创建一个新的带有填充的修改的dataframe，这样该列的长度应该是4字符。如果长度小于4个字符，则在数据中添加0，如下所示： id

浏览 2提问于2017-07-30得票数 11

1回答

使用python或pyspark中的regex从字符串中提取所需的字符之间的数据。

、、、

我想从dataframe列的行中的字符串数据中提取几个字符之间的数据。例如，列中的数据如下所示：||因此，我应该在"[]“和带有单个元素的行之间提取数据，并使用pyspark/python re

浏览 3提问于2022-03-30得票数 -3

回答已采纳

1回答

从Spark创建标记点&如何将名称列表传递给VectorAssembler

、、、

我还有更多的问题要问-- ，我正在尝试从一个dataframe构建labledPoints，在这里，我有列中的特性和标签。这些特性都是布尔型的，只有1/0。下面是来自dataframe的一个示例行： transformed = assembler.transform(

浏览 1提问于2016-06-01得票数 1

回答已采纳

0回答

提取与Spark Dataframe* (Pyspark)中的特定条件匹配的第一个“行集合”*

、、、

| Unidentified9 | UseCase211 | Unidentified我必须提取列UseCase中值为Unidentified的前4行，并对它们进行进一步处理。我希望避免使用ID列，因为它们不是固定的。以上数据只是一个样本。当我使用映射函数(在将其转换为RDD之后)或UDF时，我在输出DataFrame中最终得到8行(这是这些函数所期望的)。如何才能做到这一点？我在PySpark</

浏览 5提问于2016-12-15得票数 1

2回答

如何查看熊猫数据中字符串的整行

、

我有一个dataframe，其中一个列是一个description列，该列中的每个单元格都是一个长字符串。当我打开DF的时候，我只把前几个字跟在后面.如何查看列中每个单元格的全部描述？

浏览 2提问于2022-06-03得票数 0

1回答

使用map函数将Spark Dataframe转换为RDD

、、

我正在尝试将spark数据框中的列拆分为多个值。因此，我分隔了要拆分的列，并检查了其类型：O: pyspark.sql.dataframe.DataFrameO: pyspark.rdd.PipelinedRDD万分感谢

浏览 0提问于2016-06-22得票数 0

1回答

PySpark:将值作为后缀传递给dataframe名称

、

我有一个PySpark dataframe，并希望添加一个“迭代后缀”。对于每次迭代，counter都应该由1引发，并作为后缀添加到dataframe名称中。出于测试目的，我的代码如下所示：def loop: counter = counter + 1这里有两个问题:我不知道如何设置计数器变量，因为这个版本遇到了一个错误(赋

浏览 2提问于2021-09-09得票数 1

回答已采纳

1回答

pySpark 3.0如何裁剪所有列的空格[复制]

、、

这个问题在这里已经有答案了：在Pyspark Dataframe中修剪 (3个答案) 3天前就关门了。对于此数据帧:如何修剪循环中每列的所有前导空格和尾随空格？types. ['col1', 'col2','col3'] # add your columns label here df.show(5) 我知道如何通过如下方式指定每一列</

浏览 19提问于2021-02-26得票数 0

回答已采纳

1回答

pyspark :从map类型的列中选择带有特殊字符的列

、、、

在从dataframe中选择一些列的查询中，我有一个列类型: map，它有多个属性。我试图从该列中只选择几个属性，但这向我返回了一个错误，因为一些属性包含特殊字符，如'-‘，该列的其他属性工作正常sqlContext.sql("select colA, colB.attribute1most recent call last): File "<stdin>", line

浏览 0提问于2018-08-29得票数 1

1回答

用于显示不带小数点的整数

、、

在下面的代码中，数据文件的所有列都是字符串。其中一列用一个小数位存储整数或小数(6.1,4.8,3,9.4,6，...etc.)。但是，一旦将数据加载到pyspark dataframe中，它也会显示带有单个小数位(例如3.0)的整数。from <

浏览 7提问于2022-05-21得票数 0

3回答

当值与pyspark中的字符串的一部分匹配时，过滤df

、、、

我有一个很大的pyspark.sql.dataframe.DataFrame，我想保留(所以filter)保存在location列中的所有行，其中的URL包含预先确定的字符串，例如'google.com我试过了：df.filter(sf.col('location').contains('google.com')).show(5)但是这抛出了一个 T

浏览 2提问于2017-01-27得票数 66

回答已采纳

2回答

如何在PySpark中将向量类型的列转换为数组/字符串类型？

、、、

考虑以下pyspark中的dataframe：| Col A|| [0.5, 0.6]| | [1.1, 1.5]| A列的类型是向量，如何创建一个值为A列但类型为数组或字符串的新列？

浏览 1提问于2020-03-04得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何修改/转换数据框中的列？

如何拆分dataframe列值，并将前两个字符串仅取到新列

字符串中的Pyspark双字符替换避免未映射到pandas或rdd的特定单词

如何在pyspark中写入csv文件时为列保留数据中的空格(4space)

在一辆火花放电机里修剪一下

如何将所有的日期格式转换为日期列的时间戳？

如何解析电火花中的twitter日期时间字符串？

Pyspark中的填充

使用python或pyspark中的regex从字符串中提取所需的字符之间的数据。

从Spark创建标记点&如何将名称列表传递给VectorAssembler

提取与Spark Dataframe* (Pyspark)中的特定条件匹配的第一个“行集合”*

如何查看熊猫数据中字符串的整行

使用map函数将Spark Dataframe转换为RDD

PySpark:将值作为后缀传递给dataframe名称

pySpark 3.0如何裁剪所有列的空格[复制]

pyspark :从map类型的列中选择带有特殊字符的列

用于显示不带小数点的整数

当值与pyspark中的字符串的一部分匹配时，过滤df

如何在PySpark中将向量类型的列转换为数组/字符串类型？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐