多列上的PySpark数据帧过滤器

、、、

使用Spark 2.1.1id Name1 Name2 现在需要根据两个条件来筛选行，即需要过滤掉2和3，因为name具有number的123，而3具有空值df.select("*").filter(df["

浏览 6提问于2017-08-23得票数 0

回答已采纳

1回答

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

、、、、

我有220 GB的数据。我已经将其作为两列读取到spark dataframe中: JournalID和Text。现在，我的数据帧中缺少27行。然后，我使用一元和二元语法列上的pyspark的TF和IDF类计算TFIDF，并将其作为另一列添加到dataframe中。现在我为dataframe中的每一行都有了journalID和TFIDF vector。我想将支持向量机应用于所有类型的核，以TFIDF

浏览 1提问于2018-12-17得票数 0

1回答

多列上的pySpark连接数据帧

、、、、

我使用下面的代码来连接和删除两个数据帧之间的复制。有15列，我的df2有50+列。如何在不对要连接的列进行硬编码的情况下连接多个列？col in repeated_columns: return final_df 具体来说，当比较数据帧的列时我可以加入cols的列表吗？我需要避免硬编码名称，因为cols会因大小写而不

浏览 36提问于2020-06-08得票数 0

回答已采纳

2回答

使用python将两个spark数据帧合并到一个模式中

、、、

我有两个不同的pyspark数据帧，需要合并成一个。有一些逻辑需要为合并编码。其中一个数据帧具有以下模式：(id，类型，计数)，另一个具有模式：(id，timestamp，test1，test2，test3) 第一个数据帧是通过sql "group by“查询创建的。可以有重复的ids，但ids的类型将有所不同。并且，对于给定的类型，有一个相关的计数。

浏览 46提问于2020-01-29得票数 0

回答已采纳

0回答

减去Pandas或Pyspark Dataframe中的连续列

、、、、

我想在pandas或pyspark数据帧中执行以下操作，但我仍然没有找到解决方案。我描述的操作可以在下图中看到。请记住，输出数据帧在第一列上不会有任何值，因为输入表中的第一列不能被前一列减去，因为它不存在。

浏览 1提问于2016-07-12得票数 4

回答已采纳

1回答

如何对pyspark dataframe列应用函数

、、

我正在尝试将我的pandas代码转换为pyspark dataframe，并尝试在dataframe的一列上应用函数。我在pandas dataframe中做了一些如下的事情。在操作了几个列值之后，将新列添加到pandas数据帧中，如下所示。return USD_amount salesData['Sales (INR)'] = salesData.apply(convert_USD_INR, axis=1) 有没有人能给我举个例子，把它转换成<e

浏览 15提问于2020-01-03得票数 1

回答已采纳

1回答

在多个列上应用窗口函数

、

我想执行窗口函数(具体而言是移动平均)，但要在数据帧的所有列上执行。我可以这样做 df = ...有没有更好的方法呢？

浏览 0提问于2017-04-21得票数 6

1回答

从两个值不同的数据帧中获取列

、、、

我有两个几乎相同的Pyspark数据帧:相同的行数和row_id，相同的模式，但每行的某些列上的值不同。我想确定每一行的列是什么。示例：数据帧A id fname lname email2 Roger Moore rm@rocketmail.com3 Angela Merkel a

浏览 22提问于2020-03-23得票数 1

回答已采纳

1回答

如何从数据筛选器的输出中创建PySpark数据文件？

、、

我必须基于一个过滤器函数从一个数据文件创建2个数据文件。#df is an existing dataframedf.filter(df['Date'] == max_date ).display()df.filter= max_date ).display()# <class 'pyspar

浏览 0提问于2022-03-24得票数 0

回答已采纳

1回答

pyspark中的滞后函数运行不正常

、、、

df是没有任何唯一标识符的数据帧。我必须在列上使用滞后函数来计算它以前的值，代码如下所示 import pyspark.sql.functions as func df =

浏览 1提问于2020-05-21得票数 0

1回答

如何在pyspark中实现多个array_union和array_intersection

、、、

假设我有一个pyspark数据帧，其中包含以下列:数组类型的c1、c2、c3、c4和c5。现在我要做的是：(c1)交集(c2 union c3)交集(c2 union c4 union c5) 我可以在一个循环中的两个列上使用array_union，并在withColumn的帮助下不断添加一列如何在PySpark中高效地完成此操作？有没有更聪明的方法来做这件事？

浏览 21提问于2019-10-31得票数 0

1回答

合并多列上的数据帧

、、

如果我尝试通过循环"isin"-Method来查找，我可以查找一个列的匹配项，但我希望同时匹配两个列。

浏览 23提问于2021-01-02得票数 2

回答已采纳

2回答

迭代和计算列的更有效的方法

、

我有一个非常宽的数据帧> 10,000列，我需要计算每个列中空值的百分比。现在我正在做的是：for c in df_a.columns[:]: # print(c)当然，这是一个缓慢的过程，有时会崩溃。有没有我错过的更有效<em

浏览 0提问于2017-09-24得票数 1

4回答

加入轻量级IP (lwip)中不工作的igmp_group

、、

我是lwip的新手，我想用lwip创建一个多播接收器。我的步骤如下: 1.启用LWIP_IGMP；2.在low_level_init()中设置NETIF_FLAG_IGMP；3.加入组播组，创建并绑定pcb；4. udp_connect到remote_ip但是组播接收器不工作，没有组播数据进入网络接口。看起来我并没有将我的接收器加入到igmp组中，尽管加入过程看起来很好。有人知道我错过了什么吗？非常感谢你的帮助！瑞安

浏览 5提问于2014-04-24得票数 5

1回答

如何在pyspark中迭代dataframe多列？

、、

浏览 1提问于2020-06-04得票数 1

1回答

不执行多个联接的单元查询

、、

我编写了一个Hive查询，在包含整数值(包括0)的表的多列上计算33和66百分位数。然后，我加入这些结果，得到一个表，其中有33 %和66 %的列。我的问题是查询不执行。我试着用2列执行，它工作得很好，但在这么多的</

浏览 1提问于2016-06-23得票数 0

回答已采纳

1回答

在python中使用两列进行过滤，并在每列中选择适用的字段

、、、

我想过滤A列和D列上的数据帧，其中A列和D列是关键过滤器。数据帧名称为df。

浏览 5提问于2020-11-30得票数 1

3回答

Pandas:有没有一种方法可以在不遇到AttributeError的情况下使用.str访问器来检查对象是否真的是一个字符串？

、、

我使用toPandas()将pyspark数据帧转换为pandas数据帧。但是，因为某些数据类型不对齐，所以pandas会将数据帧中的某些列强制转换为object。我想用实际的字符串在我的列上运行.str，但似乎不能让它工作(如果没有显式地找到首先要转换的列)。(作为参考，我尝试做的是，如果数据帧中的<

浏览 1提问于2020-06-23得票数 1

0回答

如何有效地将Spark dataframe列转换为Numpy数组？

、、

我有一个大约有一百万行的Spark数据帧。我正在使用pyspark，并且必须在数据帧的每一列上应用来自scipy库的box-cox变换。但是box-cox函数只允许一维numpy数组作为输入。numpy数组是分布在spark上还是将所有元素收集到运行驱动程序的单个节点上？

浏览 6提问于2016-07-10得票数 1

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

、、、

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。显然，它在我的Jupyter Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File"/home/source/fork/PySpark_Analytics/Notebooks/Krish

浏览 110提问于2019-06-20得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何将Sklearn SVM实现应用于使用SPARK ML计算的特征( Spark ML中缺少多类SVM )

多列上的pySpark连接数据帧

使用python将两个spark数据帧合并到一个模式中

减去Pandas或Pyspark Dataframe中的连续列

如何对pyspark dataframe列应用函数

在多个列上应用窗口函数

从两个值不同的数据帧中获取列

如何从数据筛选器的输出中创建PySpark数据文件？

pyspark中的滞后函数运行不正常

如何在pyspark中实现多个array_union和array_intersection

合并多列上的数据帧

迭代和计算列的更有效的方法

加入轻量级IP (lwip)中不工作的igmp_group

如何在pyspark中迭代dataframe多列？

不执行多个联接的单元查询

在python中使用两列进行过滤，并在每列中选择适用的字段

Pandas:有没有一种方法可以在不遇到AttributeError的情况下使用.str访问器来检查对象是否真的是一个字符串？

如何有效地将Spark dataframe列转换为Numpy数组？

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐