腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
基于
pyspark
中
的
条件
的
聚合
值
apache-spark
、
hadoop
、
pyspark
、
apache-spark-sql
我是Spark
的
新手,我需要一些关于价值
聚合
的
帮助。|[buy, buy, sell, ...|210.0| +--------------------+--------------------+-----+ 我需要在这个数据框
中
添加一个新列,其中我添加了amount
中
存在
的
值
。例如,如果我在transaction_code中看到'buy‘,我会添加10和20,因为它们
的
transaction_code是'buy’。 我知道如何完全
浏览 23
提问于2020-06-29
得票数 4
回答已采纳
10
回答
基于
另一个变量保持顺序
的
collect_list
python
、
apache-spark
、
pyspark
我试图使用现有列集上
的
groupby
聚合
来在
Pyspark
中
创建一个新
的
列表列。1500id | value_list1 | [10, 5, 15, 20]列表
中
的
值
按日期排序我尝试使用collect_list,如下所示:ordered_d
浏览 8
提问于2017-10-05
得票数 82
回答已采纳
1
回答
基于
聚合
值
条件
的
SQL
聚合
sql-server
、
subquery
、
aggregate-functions
我想从表BillDetails
中
获取NetQuatity
的
聚合
值
,其中
聚合
值
应该是非零
的
。我编写了一个查询,如下所示。但感觉它并没有得到优化。有没有人可以折射这个。任何尝试都将不胜感激。
浏览 1
提问于2013-06-24
得票数 2
1
回答
基于
条件
Pandas
的
聚合
子组
值
python
、
pandas
、
aggregate
基于
条件
的
聚合
子组
值
--如果子组
中
的
所有
值
相同,则取最大
值
,如果其中任何
值
不同,则求和。例:数据预期产出:
浏览 2
提问于2021-10-08
得票数 0
回答已采纳
1
回答
如何在tableau
中
连接if
条件
中
的
字符串和整数
concatenation
、
aggregation
、
tableau-api
我正在尝试将国家与其
基于
销售
的
排名连接在一起,如果
条件
如下在这里,我得到
的
错误是不能在if
条件
下混合
聚合
和非
聚合
字段。然后我试着像然后我也得到了错误,说布尔<em
浏览 1
提问于2015-04-19
得票数 2
1
回答
Pyspark
-处理异常并在
pyspark
数据帧
中
引发RuntimeError
apache-spark
、
pyspark
、
spark-dataframe
、
pyspark-sql
、
apache-spark-1.6
我有一个dataframe,我正在尝试
基于
现有列
的
值
创建一个新列: F.when(dfg['list'].isin(["A","isin(["A","B","C","D",'E','F'])==False,lit('unknown category'))
浏览 14
提问于2018-02-01
得票数 0
1
回答
使用
pyspark
的
条件
聚合
python
、
apache-spark
、
pyspark
、
apache-spark-sql
132 2 13 89.23canada 131 3 10 43.92select when c <=10 then sum(e)
浏览 2
提问于2018-11-24
得票数 1
1
回答
PySpark
数据
的
条件
聚合
python
、
group-by
、
pyspark
我试图在
PySpark
数据帧上执行
条件
聚合
。| 1|841.0| 3|2328|+---+-----+----+
浏览 0
提问于2019-08-28
得票数 0
回答已采纳
2
回答
如何在
PySpark
中
基于
条件
计算窗口
聚合
上
的
distinct?
python
、
apache-spark
、
pyspark
、
window-functions
、
distinct-values
这是我所拥有的数据
的
示例数据框架: from
pyspark
.sql.functions import *from datetime import datetime data2我想创建两个新
的
列,其中一个告诉我商店有多少产品或过去有多少产品。这很简单。我需要
浏览 79
提问于2021-10-06
得票数 2
1
回答
如何将DataFrame.withColumn与
条件
一起使用
apache-spark
、
dataframe
、
pyspark
我想知道如何在完整
的
DataFrame上创建一个新列,但其
值
仅
基于
DataFrame
的
一个子集(即,
基于
条件
应用
的
某些函数)。在本例
中
,我希望创建一个列,该列将每个ID与Value列
中
按ID
的
正值之和相关联。|| 1 | 12 | 17 |下面的代码将按ID对
值
浏览 1
提问于2019-02-02
得票数 0
2
回答
选择具有更多数据
的
列
apache-spark
、
pyspark
、
apache-spark-sql
、
conditional-statements
、
multiple-columns
我必须使用
PySpark
从包含更多数据或
值
的
两个列中选择一个列,并将其保存在DataFrame
中
。 例如,列B有更多
的
值
,因此我将将其保存在DF
中
以进行转换。同样,如果A有更多
的
价值,我也会选择A。我认为我们可以使用if else
条件
来完成这个任务,但是我无法得到正确
的
逻辑。
浏览 1
提问于2022-10-02
得票数 0
回答已采纳
1
回答
如何使用Python Dataframe API在Apache Spark中找到中位数?
python
、
apache-spark
、
pyspark
、
median
Pyspark
API提供了除median之外
的
许多
聚合
函数。Spark 2附带了approxQuantile,它给出了近似的分位数,但精确
的
中位数计算起来非常昂贵。对于Spark Dataframe
中
的
一列
值
,是否有更多
的
Pyspark
方法来计算中值?
浏览 3
提问于2016-08-03
得票数 3
回答已采纳
2
回答
PySpark
动态类操作
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
sql-like
我有一个像这样
的
PySpark
数据文件: {"ID": 2, "Value": 10},# +---+----------+# |2 |2134510 |# +---+----------+ 现在我
的
要求是
基于
df
值
浏览 9
提问于2022-06-16
得票数 0
1
回答
聚光灯.图形表格.
基于
某些
条件
的
图标外观
spotfire
我试图使用图形表显示一个图标,在“RBG”颜色
的
基础上,
基于
某些
条件
。在下面的screenshot1 (附件)
中
,如果列2
中
显示
的
值
小于5,我想以红色显示它旁边
的
图标,否则以绿色显示。原因是数据
的
“
聚合
”被自动选择为在
条件
下使用
的
变量‘FPDueDateDifference’(请参见下面的屏幕截图2)。默认情况下选择“计数”
聚合
。)。没有“无”选项可供选择和避免数
浏览 1
提问于2016-07-13
得票数 0
回答已采纳
1
回答
如何将电火花列(
pyspark
.sql.column.Column)转换为火花放电数据?
apache-spark
、
pyspark
、
apache-spark-sql
我有一个用例来映射
基于
条件
的
pyspark
列
的
元素。通过这个文档,我找不到一个函数来执行映射函数。因此,尝试使用
pyspark
映射函数,但无法将
pyspark
列转换为dataFrame # like column.map
浏览 4
提问于2021-11-19
得票数 0
回答已采纳
1
回答
Pyspark
:
基于
多个
值
的
条件
进行计数
python
、
pyspark
|[a,d,e] |+----+---------------+------------+Case1 =对患者进行处方和诊断
的
计数Case3 =未对患者进行处方和诊断
的
计数我知道如果我在诊断上做了explode(
浏览 3
提问于2019-03-19
得票数 0
1
回答
如何在groupBy
聚合
函数中使用BitwiseOR操作
python
、
apache-spark
、
pyspark
我如何在
pySpark
Dataframe.groupBy中使用bitwiseOR作为
聚合
函数,有像sum这样
的
内置函数可以为我做这件事吗?
浏览 21
提问于2019-08-22
得票数 0
回答已采纳
1
回答
如何在
PySpark
2.1.0
中
定义事件时间窗口上
的
UDAF
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-structured-streaming
我正在编写一个Python应用程序,它在一个
值
序列上滑动一个窗口,每个
值
都有一个时间戳。我想对滑动窗口中
的
值
应用一个函数,以便根据图中所示
的
N个最新
值
计算分数。如果您希望从.csv文件
中
读取有限
的
记录序列,并希望对这种滑动窗口中
的
记录进行计数,则可以在
PySpark
中使用以下代码: from
pyspark
.sql import SparkSession, SQLContextcomple
浏览 21
提问于2017-03-12
得票数 2
回答已采纳
1
回答
pySpark
组
的
条件
累加
pyspark-sql
pySpark
中
的
新手提出了一个简单
的
问题:我有一个df,我想要进行一个
条件
累加,如果分母与0不同,则返回
聚合
结果。我
的
试探性产生了一个错误:exprs=[(sum("A")+(sum("B"))/sum("C") if sum("C")!
浏览 3
提问于2017-09-19
得票数 2
回答已采纳
2
回答
Pyspark
- RDD提取要
聚合
的
值
apache-spark
、
pyspark
、
rdd
使用
Pyspark
,我正在尝试使用RDD来
基于
该RDD
的
内容进行
聚合
。我
的
RDD目前看起来像(显然有更多
的
数据):我想将其
聚合
到以下格式
中
:User2 2 我正在努力与RD
浏览 20
提问于2021-02-17
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
OpenSea推出基于Seaport协议的项目聚合服务
深入浅析Elasticsearch中的聚合操作
python对于tensor取出满足条件的索引和对应值
Python中的条件语句if else
使用NumPy实现对满足条件的Tensor索引和值的提取
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券