Pyspark:通过拆分文本来创建新列

、、

我有一个这样的pyspark数据帧： spark.createDataFrame( (1, '1234ESPNnonzodiac'), (3, '963CNNnonzodiac'), ],) 我想创建一个新<

浏览 8提问于2020-11-03得票数 0

回答已采纳

1回答

Python spark从dataframe中提取字符

、、

STRINGOFLETTERS3 | ANOTHERSTRING我想要做的是从列中提取前5个字符加上第8个字符，并创建一个新列，如下所示：------ | ------2 | SOMEO_E4 | EXAMP_E 我不能使用以下代码，因为列中的值不同，并且我不想在特定

浏览 0提问于2016-12-02得票数 13

回答已采纳

4回答

如何在控制台中创建多个SparkContexts

、

我想在一个控制台中创建多个SparkContext。非常感谢：from pyspark import SparkConf, SparkContext (u'spark.driver.host', u'10.20.70.80'), (u'spark.app.name&#

浏览 9提问于2015-02-01得票数 6

回答已采纳

2回答

如何拆分pyspark dataframe并创建新列

、、、、

我必须根据累积和或平均值计算新列。让我们考虑一个例子：cumulative avg on [m11, ......., m20] columns 1003 |

浏览 0提问于2020-08-04得票数 0

回答已采纳

1回答

PySpark将列拆分到具有应用架构的新数据帧

、、、

如何通过逗号将字符串列拆分为具有应用模式的新数据帧？作为示例，下面是一个包含两列(id和value)的pyspark DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value列并将其拆分到一个新的DataFrame中，并应用以

浏览 18提问于2021-11-10得票数 1

1回答

将拼花文件复制到具有逗号分隔数据的Redshift中的错误

、、、

我试图将位于S3中的拼花文件复制到Redshift，但由于一列中有逗号分隔的数据，它失败了。有谁知道如何在地板文件中处理这样的场景吗？"column_16" : "test1, test2"IAM_ROLE 'iam_role'错误错误:光谱扫描错误详细信息:错误:光谱扫描错误代码: 15007上下文:表和文件之间不匹配的列数表

浏览 10提问于2022-11-29得票数 0

2回答

通过在空白上拆分值来创建新的pyspark dataframe列

、、、

我想在空白的productname列中拆分值。然后，我想创建具有前3个值的新列。下面有示例输入和输出数据。有人能建议一下如何用火花放电来做这件事吗？

浏览 4提问于2020-03-25得票数 2

回答已采纳

1回答

将PySpark数据帧读取到包含VectorUDT列的Pandas中时出现问题

、、、、

我有一个PySpark表，其中的许多列都是VectorUDT类型的。这些列是使用PySpark中的OneHotEstimator函数创建的。我不希望将每个VectorUDT列拆分成各自的列。

浏览 18提问于2019-06-10得票数 0

1回答

excel 2010:文本到列是记住的，如何摆脱这个？

、、、、

我使用“文本到列”来创建单独的列。但现在Excel直接使用我用来拆分这个新文本的文本到列，而我现在(显然)不想拆分。我尝试将文本粘贴到新的工作表上。我尝试将此文本粘贴到新工作簿中，但文本仍被excel直接拆分。我尝试粘贴为文本，也尝试粘贴为unicode文本。但到目前为止，我还没有找到这个问题的解决方案。如何让Excel“忘记”它已将文本拆分成<em

浏览 1提问于2016-03-17得票数 0

回答已采纳

2回答

PySpark:嵌套-将一列拆分为多个新列

、、、、

然后，我希望使用=进一步拆分每个新列，其中左部分作为列名，右侧部分作为值。Event | Device | ClientIP | URL我完成了第一个步骤，如下所示：from pyspark.sql import functions, SQLContext sc

浏览 0提问于2018-02-27得票数 0

回答已采纳

1回答

在CSV文件中处理JSON对象并保存到PySpark DataFrame

、、、、

如果我尝试将文件读取为CSV，那么JSON对象将在其他列中重叠。from pyspark.sql.types import *# Initializing SparkSession and setting up thespark.read.format("csv").options(header="true", delimiter = ',', inferschema='true').load(filepath) df.sho

浏览 2提问于2020-09-23得票数 1

1回答

如何使用Azure Databricks活动在Azure数据工厂中执行python Wheel类/方法(而不是脚本)？

、、、、

是否可以使用Azure Databricks活动在Azure数据工厂中执行python Wheel类/方法(而不是脚本)，就像您在.jar中使用java打包方法时所执行的那样？与脚本不同，这将能够返回值，而无需执行诸如掩埋它们的stdout之类的操作。我没有搜索到任何东西，并且我尝试使用jar活动，但没有成功，这并没有让我感到惊讶，但值得一试。如果不是，我正在寻找的是一种使用Azure Databricks计算并从python作业返回一小部分值的方法。我已经成功地为databricks python脚本使用了ADF活动。蒂娅！

浏览 15提问于2020-01-10得票数 2

1回答

修正pyspark或linux命令中的垃圾数据

、、、、

我有大量的数据集将来自NIFI，然后我将使用pyspark进行ETL转换，不幸的是，中间的一列被新行拆分，使额外的列和现有记录对于同一行为NULL，所以在执行ETL转换时，我需要使用Linux命令在Nifi流或pyspark代码中进行修正。21.0,final,splitexthere,done,v1,v2,done下面是一些输入，我们不知道哪个列会像上面那样被拆分<

浏览 5提问于2021-12-15得票数 0

2回答

如何拆分dataframe列值，并将前两个字符串仅取到新列

、

我在dataframe中有一个列，它的字符串值如下"Software part not present"nullnull null null

浏览 5提问于2022-09-30得票数 0

1回答

数据库中的枢轴问题

、

id Country Interest我想在python中的中将兴趣列命名为新列

浏览 2提问于2022-10-17得票数 0

1回答

通过填充现有列在Pyspark中创建新列

、

我正试图在现有的DataFrame中创建新列。10|null|null|null|+----+----+---+----+----+----+----++------+------+-----+------+------+------+------+------

浏览 4提问于2019-12-17得票数 0

回答已采纳

1回答

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

、、、

我想要创建一个函数，该函数从PySpark中的左联接创建一个新列，详细说明一个列中的值是否匹配或不匹配另一个dataframe逐行的列。例如，我们有一个PySpark dataframe (d1)具有列ID和名称，另一个PySpark dataframe (d2)具有相同的列- ID和Name。我试图创建一个连接这两个表的函数，并创建一个新<em

浏览 3提问于2021-12-11得票数 0

1回答

按列值拆分火花数据，并在结果中每列值获取x行数。

、

我有下面的星星之火数据格式，我试图将其按列值拆分，并返回一个包含每个列值的x行数的新数据格式from pyspark import *;from pyspark.sql.functions import udf from pyspark.sql.types import StringType, StructType, StructField(14,'A'

浏览 2提问于2017-07-02得票数 0

回答已采纳

1回答

从火花数据中选择或删除重复列

、、、

( A)对于不能修改上游或源的，如何选择、删除或重命名其中的一个列，以便检索列值？df.select('A')向我显示了一个不明确的列错误，filter、drop和withColumnRenamed也是如此。如何选择其中一列？

浏览 0提问于2018-09-06得票数 2

1回答

火花放电中列(标头)子字符串替换

我想通过替换子字符串来重命名列名。 xy.col1 xy.col2 2 3 3 5 4 4 5 8

浏览 4提问于2020-06-06得票数 4

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Python spark从dataframe中提取字符

如何在控制台中创建多个SparkContexts

如何拆分pyspark dataframe并创建新列

PySpark将列拆分到具有应用架构的新数据帧

将拼花文件复制到具有逗号分隔数据的Redshift中的错误

通过在空白上拆分值来创建新的pyspark dataframe列

将PySpark数据帧读取到包含VectorUDT列的Pandas中时出现问题

excel 2010:文本到列是记住的，如何摆脱这个？

PySpark:嵌套-将一列拆分为多个新列

在CSV文件中处理JSON对象并保存到PySpark DataFrame

如何使用Azure Databricks活动在Azure数据工厂中执行python Wheel类/方法(而不是脚本)？

修正pyspark或linux命令中的垃圾数据

如何拆分dataframe列值，并将前两个字符串仅取到新列

数据库中的枢轴问题

通过填充现有列在Pyspark中创建新列

创建一个新列，详细说明一个PySpark数据row中的行是否与另一列中的一个行匹配。

按列值拆分火花数据，并在结果中每列值获取x行数。

从火花数据中选择或删除重复列

火花放电中列(标头)子字符串替换

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐