腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
Pyspark
动态
过滤
数据
帧
python
、
pyspark
、
filter
我希望
动态
过滤
输入
数据
帧
中的空值,因为值列可以来自value(1) ...值(N) 输入
数据
帧
: |dim1|dim2|TR_LIST|value1|value2|| 103| 203|MTD0003| null| null| | 103| 203|MTD0003| 3| 23| 输出
数据
帧
102| 202|MTD0002|
浏览 17
提问于2020-04-18
得票数 0
回答已采纳
1
回答
如何在aws glue dynamicframe上创建
过滤
掉一组(文字)值的
过滤
器
aws-glue-spark
在glue脚本中(运行在zeppelin notebook中,转发到glue中的开发端点),我已经从glue表创建了一个
动态
框架,我希望
过滤
不在静态值列表中的字段"name“,即("a","b","c"对不相等进行
过滤
就像这样: rec.getField("name").exists(rec.getField("name&qu
浏览 8
提问于2021-02-12
得票数 0
回答已采纳
1
回答
Cassandra
过滤
pyspark
数据
帧
的时间戳格式正确
python
、
apache-spark
、
pyspark
、
cassandra
、
spark-cassandra-connector
我在Cassandra中将时间戳存储为YYYY-mm-dd HH:MM:SSZ,并且我能够在cql shell中
过滤
数据
以获得特定的时间范围,但是当我在
pyspark
数据
帧
上尝试同样的操作时,我在
过滤
后的
数据
帧
中没有得到任何值有谁能帮我在
pyspark
中找到合适的datetime格式吗? 谢谢。
浏览 6
提问于2020-03-05
得票数 1
2
回答
AttributeError:'DataFrame‘对象没有属性’时间戳‘
python
、
pyspark
我的
PySpark
DataFrame df有一个列unix_timestamp,它是以秒为单位的时间戳。
浏览 2
提问于2017-11-23
得票数 0
回答已采纳
1
回答
Pyspark
使用窗口函数和我自己的函数
python
、
pandas
、
pyspark
、
window
我希望用
pyspark
和spark dataframe做同样的事情。我知道我必须使用窗口函数,但它比熊猫更难理解,所以我迷路了…… 我有这个,但我不知道如何让它工作。
浏览 29
提问于2020-06-26
得票数 0
回答已采纳
3
回答
Spark RDD to DataFrame python
python
、
apache-spark
、
pyspark
、
spark-dataframe
我正在尝试将Spark RDD转换为DataFrame。我已经看到了将方案传递给sqlContext.CreateDataFrame(rdd,schema)函数的文档和示例。是否有其他方法可以在不事先知道列的信息的情况下指定模式。
浏览 0
提问于2016-09-26
得票数 47
回答已采纳
1
回答
动态
汇总和重命名
PySpark
中的聚合列
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
data-manipulation
我有一个
PySpark
数据
帧
(Df),其中包含50+列,其中包含一些
动态
列,这些列可能存在也可能不存在,但它们存在于一个单独的列表(Reqd_col)中。我想对列表(Reqd_col)中存在的
PySpark
data frame(df)中的那些列进行汇总(按固定列‘region’分组)和汇总总和或计数,汇总列的名称应与列的原始名称相同,而不是
PySpark
以下是一个例子: df-
PySpark
数据
帧
,由50+列组成 Reqd_Col
浏览 24
提问于2021-09-08
得票数 0
1
回答
Spark SQL更新/删除
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
、
pyspark-dataframes
目前,我正在做一个使用
pySpark
的项目,它读取一些Hive表,将它们存储为
数据
帧
,并且我必须对它们执行一些更新/
过滤
。我正在不惜一切代价避免使用Spark语法来创建一个框架,该框架只接受参数文件中的SQL,该参数文件将使用我的
pySpark
框架运行。现在的问题是,我必须在我的最终
数据
帧
上执行更新/删除查询,是否有任何可能的工作来在我的
数据
帧
上执行这些操作? 非常感谢!
浏览 7
提问于2019-11-15
得票数 1
2
回答
在
Pyspark
中对dataframe应用MAX函数后
过滤
行
pyspark
、
apache-spark-sql
我想知道在使用
Pyspark
对
数据
帧
应用MAX函数后,如何应用
过滤
函数。 示例:显示薪资最高的员工姓名。在sql中, select ename from emp where sal=(select max(sal) from emp) ; 我想在
Pyspark
中对dataframe应用相同的逻辑。
浏览 17
提问于2020-06-22
得票数 0
2
回答
在中
过滤
数组
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
火花版本: 2.3.0 Array Col['strawberry', 'raspberry'] ['apple', 'pineapple', 'grapes']
浏览 3
提问于2021-10-01
得票数 1
回答已采纳
1
回答
pySpark
数据
帧
过滤
方法
pyspark
、
databricks
、
pyspark-dataframes
我使用Databricks runtime 6.3和
pySpark
。我有一个
数据
帧
df_1。SalesVolume是一个整数,但AveragePrice是一个字符串。
浏览 20
提问于2020-01-27
得票数 1
回答已采纳
1
回答
使用配置单元元
数据
读取HDFS文件-
Pyspark
python
、
dataframe
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我是
PySpark
新手,正在尝试读取HDFS文件(上面创建了hive表)并创建
PySpark
数据
帧
。通过
PySpark
读取配置单元表非常耗时。有没有什么方法可以
动态
获取hive列名(用作dataframe中的模式)?我希望将文件位置、表名和
数据
库名作为输入传递给aa程序/函数,以便从配置单元元
数据
(可能是元
数据
xml)中获取模式/列名称,并作为dataframe返回。 请指教
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
如何在AWS胶水作业中将多个源映射到单个目标
amazon-web-services
、
aws-glue
、
aws-dms
我有一个MySQL
数据
库和一个包含200个表的Mongo
数据
库,我正在尝试将它连接到Glue并合并一些表,最终得到合并
数据
的20个表,以及一些
过滤
器和脚本,在
数据
到达需要的地方之前
过滤
掉其中的一些
数据
。
浏览 6
提问于2018-08-17
得票数 1
回答已采纳
1
回答
Pyspark
通过date和string
数据
类型的比较
过滤
数据
帧
python
、
dataframe
、
pyspark
、
spark-dataframe
我在
pyspark
中有一个dataframe,结构如下:现在,我想通过比较vacationdate和urlaubdate来
过滤
数据
帧
,不幸的是它们有不同的
数据
类型。我想得到
过滤
的行,其中的假日日期是大于Urlaubdate。你知道怎么做吗?
浏览 5
提问于2015-10-03
得票数 1
1
回答
Pyspark
-希望将SQL查询应用于
pyspark
数据
帧
pyspark
、
amazon-emr
免责声明:我对
pyspark
非常陌生,这个问题可能不合适。where age = 22 in SQL spark.sql("select id, age from swimmers where age = 22").show() 现在,我用以下代码尝试使用
pyspark
这可以在
pyspark
中实现吗? 注意:我在使用
Pyspark
笔记本的EMR集群上。
浏览 30
提问于2020-06-17
得票数 1
1
回答
如何从
数据
筛选器的输出中创建
PySpark
数据
文件?
python
、
dataframe
、
pyspark
我必须基于一个
过滤
器函数从一个
数据
文件创建2个
数据
文件。#df is an existing dataframedf.filter(df['Date'] == max_date ).display()df.filter= max_date ).display()# <class '
pyspark
.sql.datafra
浏览 0
提问于2022-03-24
得票数 0
回答已采纳
1
回答
如何在
pyspark
中创建
动态
数据
帧
名称
python
、
dataframe
、
apache-spark
、
pyspark
如何在
pyspark
中创建
动态
数据
帧
名称此处我无法使用以下代码创建新的
数据
帧
它将只给我最后一个
数据
帧
名称,我需要所有的
数据
帧
名称 for prime2 in pdf2: ol2 = Bucket_path
浏览 20
提问于2020-06-22
得票数 0
回答已采纳
1
回答
Pyspark
groupby列,同时有条件地对另一列进行计数
python
、
pyspark
我需要在使用groupBy时从
pyspark
获得条件输出的帮助。我知道我正在尝试做的一部分工作是能够使用MultilabelBinarizer的,但从我所看到的情况来看,这在
pyspark
中是不可用的。
浏览 1
提问于2018-10-08
得票数 0
3
回答
如何创建
动态
数据
帧
python
、
dataframe
、
apache-spark
、
pyspark
、
azure-databricks
我试图创建一个
数据
框,我之所以以下面的方式指定创建
数据
框,是为了使其成为
动态
的,但表达式是作为字符串传递的,并且exec命令无法创建
数据
框并将其赋值给变量。
浏览 18
提问于2020-02-08
得票数 0
1
回答
Pandas版本0.22.0 - drop_duplicates()获得意外的关键字参数'keep‘
python
、
pandas
、
python-2.7
、
dataframe
我正在尝试使用子集(drop_duplicates=‘’,keep=False)在我的
数据
帧
中删除重复项。Notebook中工作正常,但当我试图通过终端以.py文件的形式执行时,我得到了以下错误: Traceback (most recent call last): File "/home/source/fork/
PySpark
_Analytics
浏览 110
提问于2019-06-20
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
机器学习实践:如何将Spark与Python结合?
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券