pySpark数据帧过滤方法_Pyspark动态过滤数据帧_Pyspark数据帧过滤语法错误 - 腾讯云开发者社区

pyspark、databricks、pyspark-dataframes

我使用Databricks runtime 6.3和pySpark。我有一个数据帧df_1。SalesVolume是一个整数，但AveragePrice是一个字符串。

浏览 20提问于2020-01-27得票数 1

回答已采纳

1回答

Cassandra过滤pyspark数据帧的时间戳格式正确

python、apache-spark、pyspark、cassandra、spark-cassandra-connector

我在Cassandra中将时间戳存储为YYYY-mm-dd HH:MM:SSZ，并且我能够在cql shell中过滤数据以获得特定的时间范围，但是当我在pyspark数据帧上尝试同样的操作时，我在过滤后的数据帧中没有得到任何值有谁能帮我在pyspark中找到合适的datetime格式吗？谢谢。

浏览 6提问于2020-03-05得票数 1

1回答

Pyspark使用窗口函数和我自己的函数

python、pandas、pyspark、window

我希望用pyspark和spark dataframe做同样的事情。我知道我必须使用窗口函数，但它比熊猫更难理解，所以我迷路了…… 我有这个，但我不知道如何让它工作。

浏览 29提问于2020-06-26得票数 0

回答已采纳

1回答

我正在使用Pyspark版本1.6处理Pyspark数据帧。在将此数据框导出到.CSV文件之前，我需要根据特定条件对特定列使用LIKE和OR运算符过滤数据。为了向您介绍我到目前为止所做的工作，我从多个.JSON文件创建了初始数据帧。此数据框已子集，因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止，我已经尝试了两种不同的方法，使用sqlContext和使用Pyspark

浏览 0提问于2017-07-27得票数 0

回答已采纳

1回答

Spark SQL更新/删除

apache-spark、pyspark、apache-spark-sql、pyspark-sql、pyspark-dataframes

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧上执行这些操作？非常感谢!

浏览 7提问于2019-11-15得票数 1

2回答

在Pyspark中对dataframe应用MAX函数后过滤行

pyspark、apache-spark-sql

我想知道在使用Pyspark对数据帧应用MAX函数后，如何应用过滤函数。示例:显示薪资最高的员工姓名。在sql中， select ename from emp where sal=(select max(sal) from emp) ; 我想在Pyspark中对dataframe应用相同的逻辑。

浏览 17提问于2020-06-22得票数 0

1回答

使用SQL语法过滤和在Pyspark中显式调用列有什么区别？

apache-spark、pyspark、apache-spark-sql

因此，在我的PySpark DataFrame中有一个列(让我们称它为X)，它应该是一个double，但实际上是一个string。整个数据帧有24,968,894行。当我使用以下命令进行过滤时：我得到了8,350,764行import pyspark.sql.functions as f我得到了19,486,678行我在这两个<em

浏览 2提问于2018-11-02得票数 1

2回答

在中过滤数组

python、pandas、apache-spark、pyspark、apache-spark-sql

火花版本: 2.3.0 Array Col['strawberry', 'raspberry'] ['apple', 'pineapple', 'grapes']

浏览 3提问于2021-10-01得票数 1

回答已采纳

2回答

PySpark列向绑定

pyspark

在PySpark中有什么特定的方法可以像我们在r中那样绑定两个数据帧吗？我需要在PySpark中同时绑定数据帧和作为一个数据帧。

浏览 1提问于2017-08-30得票数 3

2回答

Pyspark动态过滤数据帧

python、pyspark、filter

我希望动态过滤输入数据帧中的空值，因为值列可以来自value(1) ...值(N) 输入数据帧： |dim1|dim2|TR_LIST|value1|value2|| 103| 203|MTD0003| null| null|| 102| 202|MTD0002|

浏览 17提问于2020-04-18得票数 0

回答已采纳

1回答

Pyspark通过date和string数据类型的比较过滤数据帧

python、dataframe、pyspark、spark-dataframe

我在pyspark中有一个dataframe，结构如下：现在，我想通过比较vacationdate和urlaubdate来过滤数据帧，不幸的是它们有不同的数据类型。我想得到过滤的行，其中的假日日期是大于Urlaubdate。你知道怎么做吗？

浏览 5提问于2015-10-03得票数 1

1回答

pyspark最有效的日期-时间戳匹配

python、apache-spark、pyspark

我有一个带有时间戳类型列的PySpark (2.3.0)数据帧：+-------------------++----------08:14:47|>> df.printSchema()|-- column: timestamp (nullable = true)import datetime

浏览 70提问于2018-06-08得票数 4

回答已采纳

1回答

Pyspark -希望将SQL查询应用于pyspark数据帧

pyspark、amazon-emr

免责声明:我对pyspark非常陌生，这个问题可能不合适。where age = 22 in SQL spark.sql("select id, age from swimmers where age = 22").show() 现在，我用以下代码尝试使用pyspark这可以在pyspark中实现吗？注意:我在使用Pyspark笔记本的EMR集群上。

浏览 30提问于2020-06-17得票数 1

1回答

如何从数据筛选器的输出中创建PySpark数据文件？

python、dataframe、pyspark

我必须基于一个过滤器函数从一个数据文件创建2个数据文件。#df is an existing dataframedf.filter(df['Date'] == max_date ).display()df.filter= max_date ).display()# <class 'pyspark.sql.datafra

浏览 0提问于2022-03-24得票数 0

回答已采纳

1回答

火花放电数据中的平均函数

pyspark

我有如下所示的数据用户提供一个值，我想从该值上方的所有行中计算元组中第二个数字的平均值。例如:假设值为10，我想取" value“列中值大于或等于10的所有行，并计算这些行的平均值。

浏览 4提问于2020-03-28得票数 1

回答已采纳

4回答

Pyspark:有没有等同于pandas info()的方法？

python、pandas、apache-spark、pyspark

在PySpark中是否有与pandas info()方法等效的方法？我正在尝试获取有关PySpark中数据帧的基本统计信息，例如:列数和行数、空值数、数据帧大小 pandas中的Info()方法提供了所有这些统计信息。

浏览 4提问于2017-06-08得票数 6

1回答

如何在aws glue dynamicframe上创建过滤掉一组(文字)值的过滤器

aws-glue-spark

在glue脚本中(运行在zeppelin notebook中，转发到glue中的开发端点)，我已经从glue表创建了一个动态框架，我希望过滤不在静态值列表中的字段"name“，即("a"，"b"，"c"对不相等进行过滤就像这样： rec.getField("name").exists(= "a")我试过几种方法

浏览 8提问于2021-02-12得票数 0

回答已采纳

1回答

Pyspark groupby列，同时有条件地对另一列进行计数

python、pyspark

我需要在使用groupBy时从pyspark获得条件输出的帮助。我知道我正在尝试做的一部分工作是能够使用MultilabelBinarizer的，但从我所看到的情况来看，这在pyspark中是不可用的。

浏览 1提问于2018-10-08得票数 0

2回答

迭代和计算列的更有效的方法

apache-spark、pyspark

我有一个非常宽的数据帧> 10,000列，我需要计算每个列中空值的百分比。有没有我错过的更有效的方法？谢谢!

浏览 0提问于2017-09-24得票数 1

1回答

在PySpark* (本地)上编程与在Jupyter Notebook上使用Python编程*

python、apache-spark、pyspark

最近我一直在使用pySpark，所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候，当我开始处理一个项目时，我并不完全知道它的范围是什么，或者输入数据的大小，所以有时我最终需要分布式计算的全部功能，而在另一些情况下，我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是，与常规的Python/Pandas相比，将pySpark作为我的主要语言进行编码是否存在劣势，即使只是进行一些探索性分析？我这么问主要是因为在不同语言之间切换的认知工作，以及如果我需要分发工作，将代码从Python迁移到py

浏览 0提问于2016-07-27得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云