使用PySpark的用户ids填充空值_用pyspark df中的新元素填充空值_Pyspark:如果其他列为空，则在pyspark列中填充固定值 - 腾讯云开发者社区

apache-spark、join、pyspark、apache-spark-sql

一个有一个日期范围，一天中的每个小时都分配给每个日期。|2020-12-20| 5||2020-12-20| 7||2020-12-20| 9| 第二个有日期和小时的用户，但是用户只有几天和几个小时，而不是所有的： +----------------+----------+----+------+|

浏览 18提问于2021-01-20得票数 0

1回答

使用pyspark将数据插入到另一个cassandra表

apache-spark、pyspark、cassandra、spark-cassandra-connector

在列main_id中，我的ids与测试表中的ids相同，也有一些唯一的ids。country_main具有空值，与测试中的值相同。.|如何根据ids将测试表中的数据插入到主表中，使用pyspark来填充country_main中的空<e

浏览 2提问于2020-04-21得票数 2

回答已采纳

1回答

pyspark.sql.functions -计数以考虑空值：

python、pyspark

我试图让pyspark.sql.functions.count()函数或pyspark.sql.functions.count_distinct()函数在计算列中不同元素的数量时考虑null值。从我的研究来看，这似乎与count_distinct()以与相同的方式工作有关。计数(DISTINCT，expr )-返回提供的表达式唯一且非空的行数。我希望在不同值的计数中考虑null值

浏览 12提问于2022-06-07得票数 0

3回答

PySpark中的空列表表示

python、apache-spark、pyspark

我有一个星火DataFrame和一个名为“成分”的专栏。它有一些价值，如：['meat'] [] 我只想看看。

浏览 2提问于2021-02-12得票数 2

回答已采纳

2回答

使用pyspark从平面记录创建段数组

arraylist、pyspark、apache-spark-sql、record

我有一个稀疏填充的表，其中包含唯一用户ids的各个段的值。我只需要创建一个包含unique_id和相关段标头的数组请注意，这只是一个指示性的数据集。我有几百个这样的片段。|| 300 | [seg1, seg2, seg4] | ------------------------------- 在pyspark-sql的

浏览 10提问于2020-09-02得票数 1

回答已采纳

3回答

使用pyspark使用先前已知的完好值填充空值

apache-spark、pyspark、apache-spark-sql

有没有办法用最后一个有效值替换null数据帧中的pyspark值？如果您认为需要timestamp和session列来进行窗口分区和排序，还可以使用它们。

浏览 0提问于2016-04-01得票数 28

回答已采纳

1回答

如何将所有的日期格式转换为日期列的时间戳？

apache-spark、datetime、pyspark、apache-spark-sql

我使用的是PySpark版本3.0.1。我正在将csv文件读取为具有2个日期列的PySpark数据帧。但是，当我尝试打印模式时，两列都被填充为字符串类型。 ? ? 上面附加的屏幕截图是Dataframe和Dataframe模式。如何使用pyspark将date列中的行值转换为时间戳格式？我已经尝试了很多东西，但所有的代码都需要当前的格式，但如何转换为正确的<

浏览 16提问于2020-12-30得票数 2

1回答

如何使用PySpark使用组的聚合填充空值

python、apache-spark、pyspark

我有一个简单的数据集，其中包含一些空值：10,Mrnull,Mr2, Miss我想用一个不同的列来填充这个分组的聚合值(在本例中是例如，标题栏的平均值是：1.5, MissAge,Title20,Mr1, Miss1.5, Miss 我见过许多使用Pandas<em

浏览 4提问于2019-04-24得票数 1

回答已采纳

1回答

如何拒绝对查询生成的非空单元格的更改

google-apps-script、google-sheets

从单独的工作簿中填充查询结果的工作表。用户可以从下拉列表中为任何单元格选择值。当onEdit调用时，值被传输到主工作簿，然后主工作簿通过查询将值复制回活动工作表中的当前单元格。试图阻止使用现有值的单元格进行编辑--即用户只能将值放在当前空白单元格中，而不能更改现有单元格。由于查询与主单元中的每个更改一起重新填充，空单元格

浏览 16提问于2022-11-24得票数 0

1回答

浏览 74提问于2019-05-22得票数 0

回答已采纳

3回答

当一些值为null时，如何将DataFrame中的多个列连接到另一个列中？

pyspark、spark-dataframe

searches_df.withColumn('unique_id',reduce(column_concat,(searches_df[col] for col in search_parameters))) 除非列包含空值，否则整个级联字符串为空。

浏览 3提问于2016-09-08得票数 6

回答已采纳

2回答

用概率分布填充缺值

pyspark、missing-data、data-imputation

我想在我的数据中填充丢失的值。2| | 3| | 3| | 3| |null| | 4|我知道我可以使用pyspark.ml 进位机来填充平均值/中位数，也可以使用这方法填充最后一个有效值。这些都是很好的选择，但我想从数据分布中随机抽取一个样本。例如，在所提供

浏览 0提问于2017-10-08得票数 1

回答已采纳

2回答

Redis节点-从哈希获取-不插入到数组中

node.js、redis、node-redis

我的目标是插入从redis散列获得的值。我使用的是node js的redis包。我的代码如下： const resultArray = []; common.redisMaster.hgetres) => { });

浏览 20提问于2018-02-23得票数 0

回答已采纳

1回答

如何在Pyspark中填充空值

python、apache-spark、pyspark、apache-spark-sql

1|+---+----------+----------+----------+----+ df = df.withColumn('first_date', F.col('first_date').cast('datenull| null| null|nul

浏览 2提问于2021-04-22得票数 0

回答已采纳

1回答

Pyspark:如果其他列为空，则在pyspark列中填充固定值

python、pyspark

我有一个有两列的pyspark dataframe。如果另一列中的行值为空，我想用固定值填充一列。因此，在customer_df中，如果customer_address为null，则将城市列填充为“unknown” 我在试这个 customer_df = customer_df.withColumn

浏览 172提问于2020-09-26得票数 0

回答已采纳

1回答

PySpark -填充结构列中的空值

python、apache-spark、pyspark、apache-spark-sql

我有以下数据：| ID| Title|| 1|[2, test]|+---+---------+from pyspark.sql.functionsimport col, expr from pyspark.sql import SparkS

浏览 1提问于2021-05-19得票数 2

回答已采纳

1回答

用均值填充pyspark中所有列的缺失值

python、apache-spark、pyspark

我正在尝试使用mean来填充我的pyspark 3.0.1数据帧中的缺失值。我正在寻找像fillna函数这样的熊猫。例如 df=df.fillna(df.mean()) 但到目前为止，我发现在pyspark中，正在使用单个列的均值来填充缺失值，而不是整个数据集。你能建议我如何在pyspark中实现像fillna这样的熊猫吗？

浏览 31提问于2021-03-08得票数 1

回答已采纳

3回答

如何用current_timestamp()填充PySpark* DataFrame中的空值？*

python、apache-spark、datetime、pyspark、apache-spark-sql

我有一个名为createdtime的专栏，它有几个空值。我只想要它用一个当前的时间戳来填充这些空。我在下面的代码中尝试了手动分配时间的方法，我希望这样做:每当我运行这段代码时，它都应该选择current_timestamp()default_time = current_timestamp()

浏览 4提问于2022-06-28得票数 0

1回答

基于先前值的前向填充电火花数据

python、dataframe、pyspark、apache-spark-sql

我有两个火花数据，这将是充分的外部连接。"id","day","action"]))产生的输出如下所示|| 2| 10| null| [8, 9]| +---+---+------+-----

浏览 2提问于2022-09-29得票数 1

回答已采纳

1回答

Spark DataFrame ArrayType或MapType用于检查列中的值

python-2.7、apache-spark、pyspark、apache-spark-sql、pyspark-sql

例如，我想获取其中包含特定ID的行数。from pyspark.sql.types import BooleanType或者使用ArrayType，我可以做到： from <em

浏览 1提问于2018-10-30得票数 2

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云