PySpark最新值替换组中的所有其他值_查找PySpark中每行的最新非空值_正在根据其他值检索Microsoft Access表单中的最新值 - 腾讯云开发者社区

apache-spark、pyspark、apache-spark-sql

我们有以下PySpark数据帧： +----+----------+----------+----------+---------+ |year|language_1| summary_1|language对于langauges_1和languages_2中所有相同的语言，我希望能够使用" year“列作为平局决定符来调整summary_1和summary_2列值，因此相同的语言应该选择具有该语言的最大年份的行，并将summary_1和sum

浏览 30提问于2021-04-25得票数 0

回答已采纳

1回答

用R中数据帧的多列中的数字替换单词

r、dataframe、rstudio、numerical、word

我想用数字代替单词来替换数据集中的值(图中的示例)，例如，1代替D，-1代替R，0用于所有其他值。我怎么才能用循环来做呢？我知道这样做是可以的：d[d$Response == "R",]$Response = -1 ...

浏览 0提问于2018-03-28得票数 2

1回答

替换R列值

r、replace、dataframe

我把调查数据输入到一个数据框架中，我有一列值为P、G、S和N的列，我需要用1代替P，用2代替G，用3代替S，用4代替N。df1$type <- replace(as.numeric(df1$type), df1$type == "P", "1") 我试过使用这个，但是这会影响到所有的值，而不仅仅是P。如何单独替换每个值？P，G，S和N是随机排列的，所以我

浏览 2提问于2015-03-13得票数 0

回答已采纳

2回答

如何在javascript数组中显示更新的元素

javascript

假设我有一个输入框，用户可以输入这些值，并将它们存储在一个数组中并显示该数组。价值观如下：apple 8, p

浏览 2提问于2014-01-29得票数 1

回答已采纳

3回答

如何替换Python中除一种以外的所有发生的事件

python

我有一个长度为K的整数列表。我想用len(a)替换列表中每个不同值的所有出现情况，但最后一个值保持不变。因此，我将用6代替两个6，用6代替一个1 (两个)，仅此而已。b = [6, 6, 0, 6, 1, 5] for j

浏览 2提问于2016-06-16得票数 0

回答已采纳

2回答

pyspark:删除所有行中具有相同值的列

pyspark

相关问题：然而，上述问题的答案仅适用于熊猫。有没有针对pyspark数据帧的解决方案？

浏览 1提问于2018-12-17得票数 4

4回答

如何替换Server中逗号分隔的字符串列中的值

sql-server、database、azure-sql-database、azure-sql-server

我在Server数据库中有一个逗号分隔的值，如1,2,3,4 (表中的列)。我想替换逗号分隔字符串中的一个特定值。也就是说，在1,2,3中，我必须用5代替1，用6代替2。预期的输出是5,6,3。我将在多行中得到值1和2。所以我需要在所有行中更新它。我有一个表，其中包含要更新的新值(即5 and

浏览 0提问于2018-09-24得票数 5

回答已采纳

2回答

如何处理python scikit NMF中的缺失值

python、scikit-learn、recommendation-engine、svd、matrix-factorization

我正在尝试在我的数据集上应用NMF，使用python learn。我的数据集包含0值和缺失值。但是scikit学习不允许数据矩阵中的NaN值。一些帖子说，用零代替缺失的值。我的问题是：

浏览 0提问于2016-09-07得票数 8

1回答

用PySpark将列转换为小写

apache-spark、pyspark、lowercase

我希望将所有的值转换为"Channel“列中的小写。我在jupyter笔记本中用PySpark创建了PySpark。我尝试过的代码，但得到了一个错误。所以它不是重复的。我的数据如下：123 Hair Fashion我希望它是：124 nails Fashio

浏览 1提问于2020-02-25得票数 0

回答已采纳

1回答

根据先前的非缺失值计算缺少的行值

pyspark、apache-spark-sql、pyspark-dataframes

这是一个在Excel中的简单练习，但不知道如何在Pyspark中完成我有一个时间序列模式的增长率。., 1003, 0.02, 4, 0.01 因此，该值仅在周期1中可用，其他所有值应按如下方式计算：第2期: 100*(1+0.01) = 101 第三期: 101*(1+0.02) 周期2本质上是周期1的值作为基数，与周期2中的</

浏览 15提问于2020-08-28得票数 1

回答已采纳

1回答

numpy中矩阵的One-hot表示

python、numpy、argmax

在3d张量中，从一个值矩阵到同一事物的一个热门表示的最简单/最智能的方法是什么？例如，如果矩阵是张量中argmax之后的索引，如下所示：其中张量是3Dx，y，z，索引自然是x，y，现在你想要得到一个3Dx，y，z张量，在axis=2中用1代替最大值，在其他地方用0代替。我知道向量到1-热矩阵<e

浏览 11提问于2017-01-07得票数 2

回答已采纳

1回答

如何在PySpark* 2.1.0中定义事件时间窗口上的UDAF*

python、apache-spark、pyspark、apache-spark-sql、spark-structured-streaming

我正在编写一个Python应用程序，它在一个值序列上滑动一个窗口，每个值都有一个时间戳。我想对滑动窗口中的值应用一个函数，以便根据图中所示的N个最新值计算分数。如果您希望从.csv文件中读取有限的记录序列，并希望对这种滑动窗口中的记录进行计数，则可以在PySpark中使用以下代码： from pyspark.sql import SparkSession, SQLCont

浏览 21提问于2017-03-12得票数 2

回答已采纳

1回答

查找PySpark中每行的最新非空值

python、pyspark

我有一个这样的PySpark数据帧， +----------+------+------+------+------+------+------+------+------+------+---------------------------------------------------------------------------------------------------- 从这些数据中，我想找到每一行的最新非空值。我用过， df.select([last(x, ignore

浏览 19提问于2019-08-29得票数 0

回答已采纳

4回答

如何保存最新的值并删除列中的所有其他值(熊猫)

python、pandas、formatting、row、dataframe

我正在尝试获取ID名称的最新出现，并希望删除在此之前发生的所有其他事件。例如(根据上面的数据)，“ID名称”“W12D0”与三个事件关联: 12:17:37，12:20:10，12:21:06 ID Name Comment

浏览 3提问于2015-08-13得票数 6

回答已采纳

1回答

如何按特定列分组，然后使用Pandas替换其他列的现有值

python、pandas

我的示例df如下所示：101 2000 30 math--我想用<code>D16<//code>列中的<code>E 213</code>值<code>H 214</code><code>H 115<//code>替

浏览 6提问于2021-11-10得票数 1

2回答

有条件地修改R数据中的所有数值？

r、dataframe

我有一个与所有数字列类似的R数据。所有非NA值要么大于/等于1，要么小于-1。我想从所有的正值中减去1，然后把1加到所有的负值中，忽略所有的NAs。我知道如何用零代替NAs，反之亦然。也试过了这是从所有值(包括负数)中减

浏览 0提问于2018-02-16得票数 0

回答已采纳

1回答

PySpark DataFrame:标记某些列值发生更改的行

python、pyspark、apache-spark-sql、pyspark-sql

我有一个包含'people‘和'timestamp’列的PySpark DataFrame (加上其他与问题无关的列)。解释是用户在那个时候做了一些事情。我想对“人物”的所有行进行分组，其中“时间戳”的差异不超过“阈值”值(例如5分钟)。感谢你的想法！

浏览 35提问于2018-08-30得票数 0

回答已采纳

2回答

GWT IE不禁用缓存

internet-explorer、caching、gwt

在我的应用程序中，IE缓存了整个内容。看起来*nocache.js不工作了？当我从一个标签跳到另一个标签时，它会兑现所有的东西。content="no-cache" />从Tools -> Internet ->浏览历史记录中手动关闭缓存...对我来说不是合适的解决方案。我只看到无限<em

浏览 0提问于2014-06-16得票数 0

2回答

Python，如何根据其他列中的其他值替换值？

python、pandas

我目前正在尝试用合理的数据替换数据集中的值。在“年龄”栏中，我想在以下条件下取代NAN值：用40代替(Nan值) c = dftrain[dftrainC (boolean) =所有年龄为Nan的行请帮助我:)！

浏览 3提问于2020-05-05得票数 1

回答已采纳

1回答

将3级嵌套字典键值转换为pyspark* dataframe*

dataframe、apache-spark、pyspark、partition

我有一个Pyspark数据框架，看起来像这样： ? 我想提取"dic“列中的那些嵌套字典，并将它们转换为PySpark数据帧。如下所示： ? 另外，每一行中的键也会有一些变化，例如，一些行可能有其他行没有的字段。我希望包括所有字段，如果一条记录没有某些字段/keys，则该值可以显示为"null“。请告诉我如何才能做到这一点。谢谢!

浏览 22提问于2020-07-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云