PySpark:根据Y列和ID列中的先前值计算X列中的值

文章/答案/技术大牛

发布

1回答

、、

我在一个PySpark数据框中有3列: ID，Y和一个空列X。, Y, X FROM TABLE_NAME") df ID: string，Y: int，X: int +----+-----+---++----+-----+--的第一次出现，我会将X</em

浏览 1提问于2019-05-02得票数 0

回答已采纳

1回答

根据存储在另一列中的值为列分配值

、

我有一个dataframe，其中我想要创建一个基于另一列中存储的值的新列。= ('Country', 'C1','x', 'y')例如，给定以下数据0 USA x 1 22

浏览 0提问于2015-11-01得票数 0

回答已采纳

1回答

使用csv文件中的pyspark数据绘制RDD数据

、、、、

我刚刚开始在非常大的csv文件上使用pyspark。我使用的是Spark版本2.1.0。我希望从一个.csv文件中读取数据，并将其加载到中，然后在过滤特定的行之后，使用matplotlib绘制2列(纬度和经度)，将其可视化。(“_c1”)中的值筛选行：保存列数据？(纬度数据位

浏览 0提问于2017-06-28得票数 1

1回答

完整数据帧的火花散列

、

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。所需的是根据年份划分一个大数据，并为每年(小数据)查找散列值并将结果持久化到一个表中。输入(产品，质量，商店

浏览 8提问于2022-12-04得票数 0

1回答

用多准则计数行

我有四列名为'w'，'x'，'y'，'z‘。它们都可以有'y'，'n‘或'u’的值。为选择这些值提供了下拉列表. 现在我们需要根据这些数据计算计数。计算“y”、“n”、“u”在“w”、“x”、“y”和“z”列

浏览 0提问于2019-01-07得票数 0

1回答

SSRS报表-根据不同字段的值计算一个新字段

、

我要做的是取一个字段的当前值，并根据一个不同字段的值乘以它的某个因子。例如，如果我有一个列(A列)具有三个不同的值(Z、X和Y)，而另一列(B列)具有不同的数字，那么我想根据这两个相关联的值计算第三个字段(C列)。因此，如

浏览 0提问于2018-03-20得票数 0

回答已采纳

1回答

Bash:根据y列中的值计算x列中出现的值

、、、

我有一根这样的绳子。transport=udp 我需要写一个bash脚本来计算每个IP (例如192.168.26 )状态4或状态2的次数。(这个字符串不包含'/n') 我无法根据每个IP解析这个字符串和计数值。

浏览 0提问于2016-08-12得票数 1

回答已采纳

3回答

如何在一个列上聚合，并在火花放电中最大限度地利用其他列？

、、

我有列X (string)、Y (string)和Z (浮点)。我也想如果列Y的多个值对应于Z列的最大值，则在Y</em

浏览 1提问于2017-05-01得票数 3

1回答

在Pyspark中计算数据帧中的空值和非空值

、、

我在Pyspark中有一个dataframe，我想在其上计算列中的空值和这些列的不同值，即非空值这是我拥有的数据帧 trans_date transaction_id transaction_id11 12016-01-01 null

浏览 74提问于2019-05-22得票数 0

回答已采纳

1回答

函数搜索特定的数字，然后进一步搜索前缀。

、、

我有大量的数据要处理，在其中的4个点与相关的前缀需要从对方减去。数据由ID和x值组成。例ID = 290.12,290.03,290.06,290.09,300.12,300.03,300.06,300.09,301.12,301.03,301.06,301.09 (让我们称前缀为“环号”和时钟上的后缀时间)x值=每个分配的ID的</em

浏览 9提问于2022-11-19得票数 0

回答已采纳

1回答

是否只读取符合条件的.parquet文件的特定行？

、、

我正在处理一个充满.parquet文件的文件系统。其中一列'id‘唯一地标识了一台机器。我能够使用pyspark打开某个目录路径中的所有.parquet文件，然后从'id‘列创建一组值([])。我想打开所有其他文件中的所有其他行，其中'id‘与先前计算的集合中的一

浏览 27提问于2019-10-19得票数 1

回答已采纳

2回答

在mutate()函数(tidyverse)中使用滞后()的问题

、

我正在尝试向dataframe中添加另一列，其中新列是新列中的前一个值和当前行值的函数。我试着删除不相关的代码，并使用简单的数字，这样我就可以理解这里的答案了。考虑到以下数据：1 13 35 5 下一列( y )将添加5到x，并为y添加上一行<e

浏览 2提问于2021-10-29得票数 4

回答已采纳

1回答

根据另一个大小不同的数据替换选定列的值

、、、

我对按特定列值分组的数据帧的数值列进行了CV计算。然后根据得到的数据帧，替换了第一个数据帧中的相关列值。我通过使用if语句混合dplyr函数、merge函数和for循环来完成操作。我有三个数值列Column1、Column2和Column3，但在实际数据中它是> 500。然后，我根据<e

浏览 0提问于2020-09-09得票数 2

回答已采纳

1回答

PySpark DataFrames -使用不同类型列之间的比较进行过滤

、、、

假设您有一个具有各种类型列(string，double.)的dataframe以及在字符串类型列中表示“缺失值”的特殊值“想念”。pdf = pd.DataFrame([ [2, 'x'],], columns=['intcol', 'strcol'])df = spark.cr

浏览 0提问于2019-01-31得票数 2

回答已采纳

1回答

用字典连接vs映射，将新数据添加到Pandas/PySpark？

、、

我有一个大数据与天气列，可以采取5个不同的数值(晴天，多云，雨，雪和其他)。我必须添加另一列，更多的信息，完全取决于天气值(例如。如果是晴天，将值x添加到新列，如果是阴天，则添加值y，.)。要么使用另一个具有天气列(此列上的join )和一个"new_data“列来添加这些新值(5行和2列</

浏览 2提问于2021-05-26得票数 2

回答已采纳

1回答

Pandas像以前一样填充列值

、、

如果满足条件，我有许多列必须保存前一行的值。Y&Z列决定其他列的值。24 42100 11 25 17 26 45因此，基本上，如果Y的值为100，Z为10，则B的列值应从先前

浏览 2提问于2021-03-18得票数 0

2回答

多列条件计数SQL

、、

我正在尝试计算一行中4个单独列中的不同条目，然后计算结果的总和。例如，表头看起来像这样：每列(保存ID)可以具有文本值W、X、Y或Z。列可以具有相同的值。我正在尝试做的是想出一种方法来计算列

浏览 0提问于2012-05-15得票数 3

回答已采纳

1回答

忽略缺失值计算pyspark数据框列的百分位数

、

我对pyspark是个新手。我有一个包含ID和BALANCE列的pyspark数据框。我尝试将列balance存储到100% (1-100%)的存储桶中，并计算每个存储桶中有多少个in。我不能使用任何与RDD相关的东西，我只能使用Pyspark语法。Window.orderBy(df.BALANCE) test = df.withColumn('percentile_co

浏览 14提问于2019-07-11得票数 0

1回答

Pyspark dataframe:计算列中的唯一值，与其他列中的值独立协作。

、、、

我有一个火花数据框架，包括从不同来源获得的两类分子、调节剂和目标之间相互作用的数十亿预测(这些分子之间没有重叠)。我需要添加一个列，其中包含预测给定的“调节器”和“目标”的至少一个交互的数字资源。换句话说，对于每一对“调节器”和“目标”，我试图获得包含“调节器”和“目标”值的源数，即使不是在一个交互作用中成对。---+------+----------+ 进一步解

浏览 2提问于2018-02-22得票数 1

回答已采纳

0回答

根据列当前值更新pyspark中的列

、、、

假设给定一个DataFrame| x| y| z|| 3| 5| 9|+-----+-----+-----+ 我想将z列中的所有值与z列等于6的y列中的值相乘。post使用下面的代码展示了我想要的</em

浏览 2提问于2017-01-01得票数 1

回答已采纳

点击加载更多