Pyspark动态过滤数据帧_pySpark数据帧过滤方法_Pyspark数据帧过滤语法错误 - 腾讯云开发者社区

python、pyspark、filter

我希望动态过滤输入数据帧中的空值，因为值列可以来自value(1) ...值(N) 输入数据帧： |dim1|dim2|TR_LIST|value1|value2|| 103| 203|MTD0003| null| null| | 103| 203|MTD0003| 3| 23| 输出数据帧102| 202|MTD0002|

浏览 17提问于2020-04-18得票数 0

回答已采纳

1回答

如何在aws glue dynamicframe上创建过滤掉一组(文字)值的过滤器

aws-glue-spark

在glue脚本中(运行在zeppelin notebook中，转发到glue中的开发端点)，我已经从glue表创建了一个动态框架，我希望过滤不在静态值列表中的字段"name“，即("a"，"b"，"c"对不相等进行过滤就像这样： rec.getField("name").exists(rec.getField("name&qu

浏览 8提问于2021-02-12得票数 0

回答已采纳

1回答

Cassandra过滤pyspark数据帧的时间戳格式正确

python、apache-spark、pyspark、cassandra、spark-cassandra-connector

我在Cassandra中将时间戳存储为YYYY-mm-dd HH:MM:SSZ，并且我能够在cql shell中过滤数据以获得特定的时间范围，但是当我在pyspark数据帧上尝试同样的操作时，我在过滤后的数据帧中没有得到任何值有谁能帮我在pyspark中找到合适的datetime格式吗？谢谢。

浏览 6提问于2020-03-05得票数 1

2回答

AttributeError：'DataFrame‘对象没有属性’时间戳‘

python、pyspark

我的PySpark DataFrame df有一个列unix_timestamp，它是以秒为单位的时间戳。

浏览 2提问于2017-11-23得票数 0

回答已采纳

1回答

Pyspark使用窗口函数和我自己的函数

python、pandas、pyspark、window

我希望用pyspark和spark dataframe做同样的事情。我知道我必须使用窗口函数，但它比熊猫更难理解，所以我迷路了…… 我有这个，但我不知道如何让它工作。

浏览 29提问于2020-06-26得票数 0

回答已采纳

3回答

Spark RDD to DataFrame python

python、apache-spark、pyspark、spark-dataframe

我正在尝试将Spark RDD转换为DataFrame。我已经看到了将方案传递给sqlContext.CreateDataFrame(rdd,schema)函数的文档和示例。是否有其他方法可以在不事先知道列的信息的情况下指定模式。

浏览 0提问于2016-09-26得票数 47

回答已采纳

1回答

动态汇总和重命名PySpark中的聚合列

python、apache-spark、pyspark、apache-spark-sql、data-manipulation

我有一个PySpark数据帧(Df)，其中包含50+列，其中包含一些动态列，这些列可能存在也可能不存在，但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的PySpark data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数，汇总列的名称应与列的原始名称相同，而不是PySpark以下是一个例子： df- PySpark数据帧，由50+列组成 Reqd_Col

浏览 24提问于2021-09-08得票数 0

1回答

Spark SQL更新/删除

apache-spark、pyspark、apache-spark-sql、pyspark-sql、pyspark-dataframes

目前，我正在做一个使用pySpark的项目，它读取一些Hive表，将它们存储为数据帧，并且我必须对它们执行一些更新/过滤。我正在不惜一切代价避免使用Spark语法来创建一个框架，该框架只接受参数文件中的SQL，该参数文件将使用我的pySpark框架运行。现在的问题是，我必须在我的最终数据帧上执行更新/删除查询，是否有任何可能的工作来在我的数据帧上执行这些操作？非常感谢!

浏览 7提问于2019-11-15得票数 1

2回答

在Pyspark中对dataframe应用MAX函数后过滤行

pyspark、apache-spark-sql

我想知道在使用Pyspark对数据帧应用MAX函数后，如何应用过滤函数。示例:显示薪资最高的员工姓名。在sql中， select ename from emp where sal=(select max(sal) from emp) ; 我想在Pyspark中对dataframe应用相同的逻辑。

浏览 17提问于2020-06-22得票数 0

2回答

在中过滤数组

python、pandas、apache-spark、pyspark、apache-spark-sql

火花版本: 2.3.0 Array Col['strawberry', 'raspberry'] ['apple', 'pineapple', 'grapes']

浏览 3提问于2021-10-01得票数 1

回答已采纳

1回答

pySpark数据帧过滤方法

pyspark、databricks、pyspark-dataframes

我使用Databricks runtime 6.3和pySpark。我有一个数据帧df_1。SalesVolume是一个整数，但AveragePrice是一个字符串。

浏览 20提问于2020-01-27得票数 1

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

python、dataframe、pyspark、apache-spark-sql、pyspark-sql

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可能是元数据xml)中获取模式/列名称，并作为dataframe返回。请指教

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

如何在AWS胶水作业中将多个源映射到单个目标

amazon-web-services、aws-glue、aws-dms

我有一个MySQL数据库和一个包含200个表的Mongo数据库，我正在尝试将它连接到Glue并合并一些表，最终得到合并数据的20个表，以及一些过滤器和脚本，在数据到达需要的地方之前过滤掉其中的一些数据。

浏览 6提问于2018-08-17得票数 1

回答已采纳

1回答

Pyspark通过date和string数据类型的比较过滤数据帧

python、dataframe、pyspark、spark-dataframe

我在pyspark中有一个dataframe，结构如下：现在，我想通过比较vacationdate和urlaubdate来过滤数据帧，不幸的是它们有不同的数据类型。我想得到过滤的行，其中的假日日期是大于Urlaubdate。你知道怎么做吗？

浏览 5提问于2015-10-03得票数 1

1回答

Pyspark -希望将SQL查询应用于pyspark数据帧

pyspark、amazon-emr

免责声明:我对pyspark非常陌生，这个问题可能不合适。where age = 22 in SQL spark.sql("select id, age from swimmers where age = 22").show() 现在，我用以下代码尝试使用pyspark这可以在pyspark中实现吗？注意:我在使用Pyspark笔记本的EMR集群上。

浏览 30提问于2020-06-17得票数 1

1回答

如何从数据筛选器的输出中创建PySpark数据文件？

python、dataframe、pyspark

我必须基于一个过滤器函数从一个数据文件创建2个数据文件。#df is an existing dataframedf.filter(df['Date'] == max_date ).display()df.filter= max_date ).display()# <class 'pyspark.sql.datafra

浏览 0提问于2022-03-24得票数 0

回答已采纳

1回答

如何在pyspark中创建动态数据帧名称

python、dataframe、apache-spark、pyspark

如何在pyspark中创建动态数据帧名称此处我无法使用以下代码创建新的数据帧它将只给我最后一个数据帧名称，我需要所有的数据帧名称 for prime2 in pdf2: ol2 = Bucket_path

浏览 20提问于2020-06-22得票数 0

回答已采纳

1回答

Pyspark groupby列，同时有条件地对另一列进行计数

python、pyspark

我需要在使用groupBy时从pyspark获得条件输出的帮助。我知道我正在尝试做的一部分工作是能够使用MultilabelBinarizer的，但从我所看到的情况来看，这在pyspark中是不可用的。

浏览 1提问于2018-10-08得票数 0

3回答

如何创建动态数据帧

python、dataframe、apache-spark、pyspark、azure-databricks

我试图创建一个数据框，我之所以以下面的方式指定创建数据框，是为了使其成为动态的，但表达式是作为字符串传递的，并且exec命令无法创建数据框并将其赋值给变量。

浏览 18提问于2020-02-08得票数 0

1回答

Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘

python、pandas、python-2.7、dataframe

我正在尝试使用子集(drop_duplicates=‘’，keep=False)在我的数据帧中删除重复项。Notebook中工作正常，但当我试图通过终端以.py文件的形式执行时，我得到了以下错误： Traceback (most recent call last): File "/home/source/fork/PySpark_Analytics

浏览 110提问于2019-06-20得票数 1

点击加载更多