腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
中
的
GroupBy
操作
pyspark
、
pyspark-sql
、
pyspark-dataframes
我有一个数据框,其中我根据纬度和经度进行了正弦距离计算。我想要找到min.distance,id和store_code。 Dataframe看起来像- +---+---------+---------+-----+-----+--------+---------++---+---------+---------+-----+-----+--------+---------+ | 1|13.031885|80.235574|29.91|73.88| 22| 1988.
浏览 6
提问于2019-09-16
得票数 0
回答已采纳
1
回答
从Pandas
groupBy
到
PySpark
groupBy
pandas
、
apache-spark
、
pyspark
考虑一下星火DataFrame,在这里我们有很少
的
列。目标是对其执行
groupBy
操作
,而不将其转换为Pandas DataFrame。等价
的
Pandas
groupBy
代码如下所示: return pd.Series({gdf = df.
groupBy
([
浏览 5
提问于2017-03-14
得票数 4
回答已采纳
3
回答
向
PySpark
数据帧
中
添加组计数列
apache-spark
、
pyspark
、
dplyr
我来自R和到
PySpark
,因为它
的
出色
的
火花处理,我正在努力从一个上下文映射到另一个特定
的
概念。| 5 | 3a | 7 | 3在dplyr
中
,我只想说:df %>%在
PySpark
中
,我可以做一些几乎同样简单
的
事情,如果我要查看,根据行数概括: from
pyspark
.s
浏览 0
提问于2018-02-14
得票数 37
回答已采纳
1
回答
如何根据id将多行合并为一个单元格,然后进行计数?
python
、
apache-spark
、
dataframe
、
pyspark
如何使用
PySpark
将多行合并为基于id
的
单个单元格?我有一个包含ids和产品
的
数据框架。首先,我想将具有相同id
的
产品合并到一个列表
中
,然后我想计算每个唯一列表出现
的
次数。,mobile4,music输出:HOME-mobile,2cd-music-video,1ORDER BY 1cloth
浏览 7
提问于2017-12-13
得票数 0
回答已采纳
3
回答
PySpark
DataFrame上分组数据
的
熊猫式转换
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
如果我们有一个由一列类别和一列值组成
的
Pandas数据框架,我们可以通过执行以下
操作
来删除每个类别
中
的
平均值:据我所知,不直接提供这个按组/转换
操作
(我在Spark1.5.0上使用
PySpark
)。我尝试使用了
浏览 8
提问于2015-12-25
得票数 19
回答已采纳
1
回答
在
Pyspark
中
替换
groupby
提高
Pyspark
代码
的
性能
apache-spark
、
pyspark
、
apache-spark-sql
我
的
Pyspark
数据框如下所示。我必须从
pyspark
代码
中
删除group by函数,以提高代码
的
性能。我必须对10万个数据执行
操作
。,(1, ['4', '5', '6']), ], ["id"
浏览 42
提问于2020-12-29
得票数 0
2
回答
pyspark
dataframe、
groupby
和列
的
方差计算
python
、
pyspark
、
spark-dataframe
、
pyspark-sql
我想按
pyspark
数据帧分组,并计算特定列
的
方差。对于一般人来说,这很容易,可以这样做AVERAGES=df.
groupby
('country').agg(func.avg('clicks').alias('avg_clicks')).collect() 然而,对于方差,函数子模块
中
似乎没有任何聚合函数(我也想知道为什么,因为这是一个相当常见
的</em
浏览 7
提问于2015-08-12
得票数 5
5
回答
PySpark
中
的
Panda
的
value_counts()
的
等价物是什么?
dataframe
、
count
、
pyspark
、
pandas-groupby
我有以下python/pandas命令:我在这里获取DataFrameGroupBy对象中所有列
的
值计数。如何在
PySpark
中
执行此
操作
?
浏览 1
提问于2018-06-27
得票数 32
1
回答
Pyspark
根据一列合并不同
的
行
pyspark
6|+----------------+------------+-----+ 如果来自同一项运动,有没有办法将多行计数
的
值结合起来例如,如果Sport =高山滑雪,我会有这样
的
东西: +----------------+-----++----------------+-----+
浏览 10
提问于2021-08-02
得票数 0
回答已采纳
2
回答
不带聚合或计数
的
Pyspark
groupBy
DataFrame
python
、
pyspark
、
pyspark-dataframes
它可以在没有聚合或计数
的
情况下遍历
Pyspark
groupBy
数据帧吗?例如Pandas
中
的
代码: for i, d in df2:Is there a difference in howto iterate
groupby
in
Pyspark
or have to use aggregation and count?
浏览 54
提问于2020-01-07
得票数 3
回答已采纳
1
回答
在
PySpark
1.5.0
中
,如何根据‘x’列
的
值列出‘y’列
的
所有项?
python
、
apache-spark
、
pyspark
以下问题是针对
PySpark
版本1.5.0
的
,因为
PySpark
中
不断添加新特性。| x| y||foo| 1||bar| 10||qux|999|我想要这样
的
东西在潘达斯,我可以通过以下方式来实现这个星座:pd.
groupby
('x
浏览 4
提问于2016-03-20
得票数 1
回答已采纳
1
回答
如何序列化
PySpark
GroupedData对象?
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我在一个具有数百万条记录
的
数据集上运行
groupBy
(),并希望保存结果输出(一个
PySpark
GroupedData对象),以便以后可以对其进行反序列化,并从该点恢复(根据需要在该点上运行聚合)。df.
groupBy
("geo_city")我希望避免将GroupedData对象转换为DataFrames或RDDs,以便将其保存为文本文件或Parquet/Avro格式
浏览 0
提问于2016-07-27
得票数 2
1
回答
多列
Pyspark
上
的
Groupby
操作
python
、
group-by
、
pyspark
我已经为
pyspark
dataframe
中
的
两个特性应用了
groupby
和计算标准差。from
pyspark
.sql import functions as f cols = ['group','val1'
浏览 18
提问于2019-04-15
得票数 0
2
回答
如何合并重复行并将所有False值更改为True,其中True是重复行
中
的
值?
python-3.x
、
pandas
、
pyspark
所以我有一个数据帧,它有很多副本,但问题是它们是这样
的
- Color ID2 True 1234564 False 09875 True 0987 在本例
中
,我想组合所有重复
的
ID,并将所有内容设为True,但前提是color列中有一个True。这是我
的
预期输出 ID Color1 123456 True 但我希望对每一列都这样做,而不是只针对一列(在本例
中
是Color
浏览 22
提问于2019-12-25
得票数 0
回答已采纳
2
回答
使用
groupby
或聚合将RDD或DataFrame
中
的
每个事务
中
的
项合并为FP增长。
python
、
apache-spark
、
pyspark
、
apache-spark-sql
、
rdd
| a| [1, 2, 5]|| 2| c| [1, 2]|我如何在
PySpark
中
做到这一点?
浏览 0
提问于2017-08-08
得票数 3
回答已采纳
1
回答
将
Groupby
with Join Spark SQL查询更改为Spark Dataframe
python
我最初使用Spark SQL编写脚本,但现在出于性能和其他原因,我尝试将Sql查询转换为
PySpark
数据帧。Spark Dataframe替换上面的SQL查询时,我写道但我在这里得到一个错误
浏览 17
提问于2018-09-04
得票数 2
回答已采纳
1
回答
Pyspark
2.4
中
的
GroupedData对象
python-3.x
、
pyspark-sql
我有一个以下格式
的
数据: +------+-------------+-----------------+--------------------+ |Serial| respID|11|1_10001070394| 11|Interviewer Serve...| 48| Male| No| 我可以通过以下代码在python
中
对较小
的
数据集执行此
操作
- df.
groupby
(['respID','Ser
浏览 24
提问于2019-05-02
得票数 1
1
回答
基于键
的
DF上
的
pySpark
协同运算
pyspark
我想对两个关系A和B分别使用键A_key和B_key执行coGroup
操作
。我尝试过在单个关系上执行
groupBy
操作
,然后连接它们,但我发现在
PySpark
DF
的
情况下,您不能对分组
的
数据执行连接
操作
。
浏览 1
提问于2017-07-13
得票数 0
1
回答
如何在
pyspark
中
对dataframe进行算术运算?
apache-spark
、
pyspark
、
apache-spark-sql
我需要在
PySpark
中
执行同样
的
操作
。到目前为止,就像在上面的代码中使用nvl一样,我已经在
Pyspark
中使用了fill()将null值替换为0。"]) y = t3.select("units_inflow_can").
groupby
()").
groupby
().sum().sho
浏览 69
提问于2021-02-16
得票数 0
1
回答
分组依据列表
中
的
元素
python
、
pyspark
、
pyspark-sql
我是
PySpark
的
新手。我创建了spark dataframe,并且我有一个" countries“列,其中包含国家列表。如何通过存在于国家/地区列表
中
的
单个国家/地区来
groupBy
我
的
数据帧 +-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
Python中的File操作
仓库中的补货操作
Python中列表的基本操作!
Java web 中的 session 操作
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券