腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
pySpark
数据
帧
过滤
方法
pyspark
、
databricks
、
pyspark-dataframes
我使用Databricks runtime 6.3和
pySpark
。我有一个
数据
帧
df_1。SalesVolume是一个整数,但AveragePrice是一个字符串。
浏览 20
提问于2020-01-27
得票数 1
回答已采纳
1
回答
Cassandra
过滤
pyspark
数据
帧
的时间戳格式正确
python
、
apache-spark
、
pyspark
、
cassandra
、
spark-cassandra-connector
我在Cassandra中将时间戳存储为YYYY-mm-dd HH:MM:SSZ,并且我能够在cql shell中
过滤
数据
以获得特定的时间范围,但是当我在
pyspark
数据
帧
上尝试同样的操作时,我在
过滤
后的
数据
帧
中没有得到任何值有谁能帮我在
pyspark
中找到合适的datetime格式吗? 谢谢。
浏览 6
提问于2020-03-05
得票数 1
1
回答
Pyspark
使用窗口函数和我自己的函数
python
、
pandas
、
pyspark
、
window
我希望用
pyspark
和spark dataframe做同样的事情。我知道我必须使用窗口函数,但它比熊猫更难理解,所以我迷路了…… 我有这个,但我不知道如何让它工作。
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
1
回答
Pyspark
数据
帧
过滤
语法错误
pyspark
、
pyspark-sql
我正在使用
Pyspark
版本1.6处理
Pyspark
数据
帧
。在将此
数据
框导出到.CSV文件之前,我需要根据特定条件对特定列使用LIKE和OR运算符
过滤
数据
。为了向您介绍我到目前为止所做的工作,我从多个.JSON文件创建了初始
数据
帧
。此
数据
框已子集,因此仅包含所需的列。然后创建了一个sqlContext临时表。到目前为止,我已经尝试了两种不同的
方法
,使用sqlContext和使用
Pyspark
浏览 0
提问于2017-07-27
得票数 0
回答已采纳
1
回答
Spark SQL更新/删除
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
、
pyspark-dataframes
目前,我正在做一个使用
pySpark
的项目,它读取一些Hive表,将它们存储为
数据
帧
,并且我必须对它们执行一些更新/
过滤
。我正在不惜一切代价避免使用Spark语法来创建一个框架,该框架只接受参数文件中的SQL,该参数文件将使用我的
pySpark
框架运行。现在的问题是,我必须在我的最终
数据
帧
上执行更新/删除查询,是否有任何可能的工作来在我的
数据
帧
上执行这些操作? 非常感谢!
浏览 7
提问于2019-11-15
得票数 1
2
回答
在
Pyspark
中对dataframe应用MAX函数后
过滤
行
pyspark
、
apache-spark-sql
我想知道在使用
Pyspark
对
数据
帧
应用MAX函数后,如何应用
过滤
函数。 示例:显示薪资最高的员工姓名。在sql中, select ename from emp where sal=(select max(sal) from emp) ; 我想在
Pyspark
中对dataframe应用相同的逻辑。
浏览 17
提问于2020-06-22
得票数 0
1
回答
使用SQL语法
过滤
和在
Pyspark
中显式调用列有什么区别?
apache-spark
、
pyspark
、
apache-spark-sql
因此,在我的
PySpark
DataFrame中有一个列(让我们称它为X),它应该是一个double,但实际上是一个string。整个
数据
帧
有24,968,894行。当我使用以下命令进行
过滤
时:我得到了8,350,764行import
pyspark
.sql.functions as f我得到了19,486,678行 我在这两个<em
浏览 2
提问于2018-11-02
得票数 1
2
回答
在中
过滤
数组
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
火花版本: 2.3.0 Array Col['strawberry', 'raspberry'] ['apple', 'pineapple', 'grapes']
浏览 3
提问于2021-10-01
得票数 1
回答已采纳
2
回答
PySpark
列向绑定
pyspark
在
PySpark
中有什么特定的
方法
可以像我们在r中那样绑定两个
数据
帧
吗? 我需要在
PySpark
中同时绑定
数据
帧
和作为一个
数据
帧
。
浏览 1
提问于2017-08-30
得票数 3
2
回答
Pyspark
动态
过滤
数据
帧
python
、
pyspark
、
filter
我希望动态
过滤
输入
数据
帧
中的空值,因为值列可以来自value(1) ...值(N) 输入
数据
帧
: |dim1|dim2|TR_LIST|value1|value2|| 103| 203|MTD0003| null| null|| 102| 202|MTD0002|
浏览 17
提问于2020-04-18
得票数 0
回答已采纳
1
回答
Pyspark
通过date和string
数据
类型的比较
过滤
数据
帧
python
、
dataframe
、
pyspark
、
spark-dataframe
我在
pyspark
中有一个dataframe,结构如下:现在,我想通过比较vacationdate和urlaubdate来
过滤
数据
帧
,不幸的是它们有不同的
数据
类型。我想得到
过滤
的行,其中的假日日期是大于Urlaubdate。你知道怎么做吗?
浏览 5
提问于2015-10-03
得票数 1
1
回答
pyspark
最有效的日期-时间戳匹配
python
、
apache-spark
、
pyspark
我有一个带有时间戳类型列的
PySpark
(2.3.0)
数据
帧
:+-------------------++----------08:14:47|>> df.printSchema()|-- column: timestamp (nullable = true)import datetime
浏览 70
提问于2018-06-08
得票数 4
回答已采纳
1
回答
Pyspark
-希望将SQL查询应用于
pyspark
数据
帧
pyspark
、
amazon-emr
免责声明:我对
pyspark
非常陌生,这个问题可能不合适。where age = 22 in SQL spark.sql("select id, age from swimmers where age = 22").show() 现在,我用以下代码尝试使用
pyspark
这可以在
pyspark
中实现吗? 注意:我在使用
Pyspark
笔记本的EMR集群上。
浏览 30
提问于2020-06-17
得票数 1
1
回答
如何从
数据
筛选器的输出中创建
PySpark
数据
文件?
python
、
dataframe
、
pyspark
我必须基于一个
过滤
器函数从一个
数据
文件创建2个
数据
文件。#df is an existing dataframedf.filter(df['Date'] == max_date ).display()df.filter= max_date ).display()# <class '
pyspark
.sql.datafra
浏览 0
提问于2022-03-24
得票数 0
回答已采纳
1
回答
火花放电
数据
中的平均函数
pyspark
我有如下所示的
数据
用户提供一个值,我想从该值上方的所有行中计算元组中第二个数字的平均值。 例如:假设值为10,我想取" value“列中值大于或等于10的所有行,并计算这些行的平均值。
浏览 4
提问于2020-03-28
得票数 1
回答已采纳
4
回答
Pyspark
:有没有等同于pandas info()的
方法
?
python
、
pandas
、
apache-spark
、
pyspark
在
PySpark
中是否有与pandas info()
方法
等效的
方法
?我正在尝试获取有关
PySpark
中
数据
帧
的基本统计信息,例如:列数和行数、空值数、
数据
帧
大小 pandas中的Info()
方法
提供了所有这些统计信息。
浏览 4
提问于2017-06-08
得票数 6
1
回答
如何在aws glue dynamicframe上创建
过滤
掉一组(文字)值的
过滤
器
aws-glue-spark
在glue脚本中(运行在zeppelin notebook中,转发到glue中的开发端点),我已经从glue表创建了一个动态框架,我希望
过滤
不在静态值列表中的字段"name“,即("a","b","c"对不相等进行
过滤
就像这样: rec.getField("name").exists(= "a")我试过几种
方法
浏览 8
提问于2021-02-12
得票数 0
回答已采纳
1
回答
Pyspark
groupby列,同时有条件地对另一列进行计数
python
、
pyspark
我需要在使用groupBy时从
pyspark
获得条件输出的帮助。我知道我正在尝试做的一部分工作是能够使用MultilabelBinarizer的,但从我所看到的情况来看,这在
pyspark
中是不可用的。
浏览 1
提问于2018-10-08
得票数 0
2
回答
迭代和计算列的更有效的
方法
apache-spark
、
pyspark
我有一个非常宽的
数据
帧
> 10,000列,我需要计算每个列中空值的百分比。有没有我错过的更有效的
方法
? 谢谢!
浏览 0
提问于2017-09-24
得票数 1
1
回答
在
PySpark
(本地)上编程与在Jupyter Notebook上使用Python编程
python
、
apache-spark
、
pyspark
最近我一直在使用
pySpark
,所以我已经习惯了它的语法、不同的API和HiveContext函数。很多时候,当我开始处理一个项目时,我并不完全知道它的范围是什么,或者输入
数据
的大小,所以有时我最终需要分布式计算的全部功能,而在另一些情况下,我最终得到了一些在我的本地计算机上运行良好的脚本。我的问题是,与常规的Python/Pandas相比,将
pySpark
作为我的主要语言进行编码是否存在劣势,即使只是进行一些探索性分析?我这么问主要是因为在不同语言之间切换的认知工作,以及如果我需要分发工作,将代码从Python迁移到
py
浏览 0
提问于2016-07-27
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
PySpark数据分析基础:PySpark原理详解
机器学习实践:如何将Spark与Python结合?
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券