在Pyspark中替换dataframe中值的SubString_替换Pyspark Dataframe中列中的空值_删除pyspark dataframe中值为字符串的行 - 腾讯云开发者社区

、、、、

我有一个带有一些属性的dataframe，它的外观如下： +-------+-------++-------+-------++-------+-------+ 如您所见，数据帧的Atr1和Atr2的值是带有'，‘字符的数字。这是因为我从CSV加载了这些数据，其中DoubleType数字的小数用'，‘表示。当我将数据加载到dataframe中</e

浏览 106提问于2017-07-11得票数 0

回答已采纳

1回答

如何使用Python Dataframe* API在Apache Spark中找到中位数？*

、、、

Pyspark API提供了除median之外的许多聚合函数。Spark 2附带了approxQuantile，它给出了近似的分位数，但精确的中位数计算起来非常昂贵。对于Spark Dataframe中的一列值，是否有更多的Pyspark方法来计算中值？

浏览 3提问于2016-08-03得票数 3

回答已采纳

1回答

如何创建函数，以求Pyspark数据中列的中值

、、

我想用Pyspark.How中的中值替换null值，我能这样做吗？

浏览 2提问于2020-10-01得票数 0

回答已采纳

4回答

带子字符串的Pyspark列

、

如何用其本身的子字符串替换列？我正在尝试从字符串的开头和结尾删除选定的字符数。from pyspark.sql.functions import substringpdf = pd.DataFrame({'COLUMN_NAME':['_COLUMN_NAME_fix is blank df.withColumn('COLUMN_NAME_fix', substring<

浏览 3提问于2017-10-14得票数 19

回答已采纳

3回答

PySpark SQL中的LEFT和RIGHT函数

、、、、

我是PySpark的新手。我使用pandas拉出了一个csv文件。并使用registerTempTable函数创建了临时表。from pyspark.sql import SQLContextimport pandas as pd sqlc.sql(""" select right(phone_number,4) fro

浏览 6提问于2016-11-11得票数 2

回答已采纳

1回答

在pyspark数据帧中用数字替换字符串

、

我刚接触pyspark，我想在pyspark dataframe列中动态地用数字替换名称，因为我的dataframe中有超过500,000个名称。如何继续？

浏览 9提问于2019-07-25得票数 0

3回答

如何在PySpark中用零替换句号？

、、

我试图用PySpark中的0值替换原始数据中的句号。 from pyspark.sql import functions as F dataframe2 = dataframe1.withColumn("test_col", F.wh

浏览 8提问于2019-09-01得票数 1

1回答

星星之火1.6:如何将从Scala jar生成的RDD转换为吡火花RDD？

、、、

我正在尝试创建一些POC代码，演示如何从PySpark调用Scala函数，结果是一个PySpark.RDD。以下是Scala端的代码： } 这就是我在PySpark端访问它所做的事情： >>> foo = s

浏览 18提问于2017-05-05得票数 0

回答已采纳

1回答

如何在PySpark* DataFrame中替换无穷大*

、、、、

似乎不支持替换无穷大值。我尝试了下面的代码，但它不起作用。还是我漏掉了什么？=sqlContext.createDataFrame([(None, None), (1, np.inf), (None, 2)])或者我必须走一条痛苦的道路:将PySpark DataFrame转换为DataFrame，替换无穷大值，然后将其转换回PySpark DataFrame。

浏览 7提问于2015-12-23得票数 6

回答已采纳

2回答

用java代码和python代码创建的数据

、、、

我在java中有一个类，它构建了一些复杂的星火DataFrame。return dataframe;}b = sc.b.build()))VS#prints: pys

浏览 0提问于2018-03-14得票数 1

回答已采纳

1回答

左反团员

、、、

我有一个dataframe，它有两个列a和b，其中b列中的值是a列中值的a子集。，其中anti_b列中的值是来自a列的任何值，这样a!=anti_b和行(a,anti_b)就不会出现在原始的数据格式中。因此，在上面的数据中，结果应该是：+---+------++---+------+| 2| 3| +---+----

浏览 2提问于2019-11-18得票数 0

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。这些变量为带有字符串的Dataframe类型。错误：只能将字符串(不是Dataf

浏览 0提问于2021-03-05得票数 0

1回答

Pyspark -> StringIndexer:用数字替换“无”值

、

我有几个“无”值的数据框架。通过StringIndexer，将字符串列转换为浮动列后，"None“值被替换为number。谢谢。(self.rawData, columnName) @staticmethod def TransformNominalToNumeric(dataFrameinputCol = inputColumn, outputCol = outputColumn, handleInvalid

浏览 1提问于2018-04-29得票数 0

1回答

根据Pyspark中的列表和列创建列

、、

我有一个pyspark，比如df1，它有多个列。df2 = df1.withColumn('new_column', expr("case when col_1 in l then 'yes' else 'no

浏览 0提问于2016-05-16得票数 1

回答已采纳

6回答

Pyspark:通过搜索字典替换列中的值

、、、、

我是PySpark的新手。deviceDict = {'Tablet':'Mobile','Phone':&

浏览 5提问于2017-05-15得票数 23

回答已采纳

1回答

使用regex语句的case语句

、、、、

在代码中，我将从另一个已转换为临时视图的dataframe创建一个dataframe。然后，我将使用sql查询在最后一个查询中创建一个新字段。我想要创建的字段的代码最初来自postgresql，我想知道在pyspark中正确版本的case语句和regex是什么？另外，什么是regex测试的正确的pyspark版本？代码： fro

浏览 1提问于2021-04-16得票数 0

回答已采纳

5回答

在spark dataframe中创建子字符串列

、、

我想要获取一个json文件并对其进行映射，以便其中一列是另一列的子字符串。例如，取左边的表并生成右边的表： ------------ ------------------------ | a | |

浏览 59提问于2017-03-16得票数 15

回答已采纳

2回答

CSV文件中的任何" null“字符串都应替换为pyspark* dataframe - Databricks中的SQL值null*

、、

我有一个以" null“作为字符串的Dataframe，我想将其替换为数据库中PySpark Dataframe中的SQL值null。有没有人能帮个忙。我是Spark的新手。谢谢。

浏览 38提问于2021-09-02得票数 2

3回答

如何根据列中字符串的长度有条件地从PySpark* Dataframe StringType()列中删除字符的子字符串？*

、、、

我有一个PySpark Dataframe，它的StringType()列主要有15个字符。但是，有些行有11个字符。|'45532234553' |al |+--------------+--------+from pyspark.sql.fu

浏览 1提问于2019-04-20得票数 3

2回答

如何从子字符串的左边和PySpark列中同一子字符串的右侧提取字符？

、、

我的Pyspark dataframe是这样的：+--+-------+|2|700024||4|70004|我想移除三个零一起出现，并得到数字的左和右的三个零在单独的列。就像这样：+--+-------+|2|7|24||4|7|4|问题是A可以变长，B中的<

浏览 12提问于2020-09-17得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云