腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(7993)
视频
沙龙
1
回答
Pyspark
GroupBy
和
计数
太慢
apache-spark
、
pyspark
、
group-by
、
google-cloud-dataproc
我在有4个节点的dataproc集群上运行
pyspark
,每个节点有2个核心
和
8 GB RAM。我有一个dataframe,它有一个包含单词列表的列。我分解了这个专栏,并计算了出现次数- df.
groupBy
("exploded_col").count() 爆炸前约有78MN排。但是,运行上述代码的时间太长(超过4个小时)。
浏览 132
提问于2020-07-17
得票数 1
2
回答
不带聚合或
计数
的
Pyspark
groupBy
DataFrame
python
、
pyspark
、
pyspark-dataframes
它可以在没有聚合或
计数
的情况下遍历
Pyspark
groupBy
数据帧吗?. Is there a difference in how to iterate
groupby
in
Pyspark
or have to use aggregation
浏览 54
提问于2020-01-07
得票数 3
回答已采纳
1
回答
熊猫到火花放电环境
python
、
dataframe
、
pyspark
、
apache-spark-sql
[] count12 = new_df.loc[new_df[col].diff() == 1]在
pyspark
中没有获得所有列长度的选项。
浏览 5
提问于2022-09-18
得票数 1
回答已采纳
1
回答
Pyspark
-在多个列上聚合
python
、
python-2.7
、
apache-spark
、
pyspark
1880 John 0.081541 boy1880 James 0.050057 boy1880 boy 0.070703 3 在
pyspark
中完成下面的步骤后,我不确定如何继续
浏览 0
提问于2016-03-28
得票数 16
2
回答
如何在火花放电中获得
groupBy
后每次
计数
的总数百分比?
pyspark
给定以下DataFrame:findspark.init()| a| 1|| a| 3|我希望计算每个类别中的项目数,并为每个
计数
提供一个百分比
浏览 2
提问于2018-09-10
得票数 7
回答已采纳
1
回答
统计SPARKSQL中的重复行数
pyspark
、
apache-spark-sql
、
spark-dataframe
、
pyspark-sql
from
pyspark
import SparkContext, SparkConffrom
pyspark
.sql.typesimport *app_name="test"sc = SparkContext
浏览 3
提问于2018-02-01
得票数 11
回答已采纳
3
回答
向
PySpark
数据帧中添加组
计数
列
apache-spark
、
pyspark
、
dplyr
我来自R
和
到
PySpark
,因为它的出色的火花处理,我正在努力从一个上下文映射到另一个特定的概念。在
PySpark
中,我可以做一些几乎同样简单的事情,如果我要查看,根据行数概括:from
pyspark
.sql.functionsimport col .
gro
浏览 0
提问于2018-02-14
得票数 37
回答已采纳
2
回答
找到具有列值的公共行对
pyspark
我有一个如下所示的数据集(有数千个不同的起始I
和
终端I):1 11 31我需要将
计数
到startID
和
endID组合在一起的所有时间(行),并得到如下内容:1 1 2 1 2
浏览 2
提问于2020-10-04
得票数 1
回答已采纳
1
回答
如何根据id将多行合并为一个单元格,然后进行
计数
?
python
、
apache-spark
、
dataframe
、
pyspark
如何使用
PySpark
将多行合并为基于id的单个单元格?我有一个包含ids
和
产品的数据框架。首先,我想将具有相同id的产品合并到一个列表中,然后我想计算每个唯一列表出现的次数。SS.SEC_ID, SS.SEC_NAME输出:enter,andr-char-danny-lucas 在本例中,输出没有
计数
我想用
PySpark
而不是sql/pig来解决这个问题。
浏览 7
提问于2017-12-13
得票数 0
回答已采纳
2
回答
删除与某些行相关的所有重复行。
python
、
pyspark
、
apache-spark-sql
、
pyspark-sql
3.0| 0||892383| 2.0| 0|+------+-----+----+ +------+-----+----++------+-----+----+df.dropDup
浏览 0
提问于2018-07-25
得票数 1
回答已采纳
1
回答
如何使用
pySpark
将items行中的数组列单元格转换为
计数
?
arrays
、
pyspark
、
dataset
、
transformation
+ 1 ++ val3 + 2 ++---------+-------+ 代码在
pySpark
我寻找了许多可以帮助我的示例
和
函数,但我没有找到,而且由于
pySpark
数据集是不可变的,我没有找到转换数组
和
计算出现次数的方法。
浏览 15
提问于2019-10-06
得票数 0
回答已采纳
5
回答
PySpark
中的Panda的value_counts()的等价物是什么?
dataframe
、
count
、
pyspark
、
pandas-groupby
我有以下python/pandas命令:我在这里获取DataFrameGroupBy对象中所有列的值
计数
。如何在
PySpark
中执行此操作?
浏览 1
提问于2018-06-27
得票数 32
1
回答
使用Spark结构化流
和
Python进行单词
计数
python
、
spark-structured-streaming
此示例摘自“星火的结构化流编程指南”:from
pyspark
.sql.functions import explode .builder \ ).alias("word")
浏览 11
提问于2021-12-14
得票数 2
1
回答
不带
groupby
的
计数
和
非重复
计数
使用
PySpark
python
、
pyspark
、
pyspark-sql
我有一个数据帧(testdf),希望在另一列(booking/rental)不为null或非空(即“”)的列(memid)上获得
计数
和
非重复
计数
。= ""mydf.filter("booking!=''").
groupBy
('booking').agg(count("patid"), countDistinct("patid")) 但我只想要总体
浏览 44
提问于2018-06-05
得票数 0
1
回答
如何使火花放电使用自定义python?
python
、
apache-spark
、
pyspark
我所做的是: %spark.
pyspark
从
pyspark
.sql.functions pandas_udf,PandasUDFType @pandas_udf(df.schema’,‘清关’:‘
计数
’,‘
计数
’,'sum',‘价格指南’:‘max’,“总价格”:'sum‘pdf1 = pdf.
groupby<
浏览 2
提问于2018-09-05
得票数 2
2
回答
根据Spark 1.6数据帧上的其他字段计算每个组的不同元素
python
、
apache-spark
、
pyspark
"address":1111114, "date":20150419134543}
和
代码:from
pyspark
.sql.types import TimestampType from datetime import, '%
浏览 1
提问于2016-03-17
得票数 28
回答已采纳
3
回答
如何从中的Row对象中获取值?
apache-spark
、
pyspark
、
spark-dataframe
为 .
groupBy
().mean()).head() averageCount = (wordCountsDF我得到以下错误: :getFloat AttributeError跟踪(最近一次调用)在() 1# TODO:替换为适当的代码->2 a
浏览 5
提问于2016-06-23
得票数 22
2
回答
PySpark
groupBy
计数
显示方法失败
apache-spark
、
pyspark
、
spark-dataframe
如果我只运行df.
groupBy
("eventtype").count(),它就能工作,我就可以得到DataFrame[eventtype: string, count: bigint]Traceback (most recent call last): File "/tmp/zeppelin_
pyspark
Exception(traceback.form
浏览 6
提问于2017-07-19
得票数 1
回答已采纳
1
回答
PySpark
得到列的最大值
和
最小非零值
python
、
dataframe
、
apache-spark
、
pyspark
--+--------------------+--------------------+--------------+---------+----------+ .withColumnRenamed("min(download_count)", "download_min")因为这将得到实体123
和
124
浏览 1
提问于2020-11-03
得票数 1
回答已采纳
1
回答
groupBy
在星火中的聚合函数
计数
使用
java
、
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
我试图在
pySpark
中用一行代码进行多个操作,但不确定这对我的情况是否可行。 )我的意图是在使用timePeriod后添加count(),以获得与每个值匹配的记录
计数
当尝试使用
groupBy
(..).count().agg(..)时,我会得到异常。是否有任何方法可以同时实现count() agg().show()
和
打印,而无需将
浏览 3
提问于2017-01-27
得票数 61
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券