腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
为什么
GBMClassifier
结果
上
的
GroupBy
(
和
带有
count
()
的
GroupBy
)
产生
不一致
的
结果
group-by
、
pyspark
、
bigdata
、
amazon-emr
、
precision-recall
在
Pyspark
中,我加载了一个大型数据集,并通过我
的
GBMClassifier
运行它。在训练/拟合之前,对输入数据执行
groupby
会
产生
预期
的
结果
(这些值加起来等于预期
的
计数,等等)。然而,在拟合测试数据之后,对预测使用
GroupBy
并不能给出可重现
的
结果
。我试图
产生
一个基本
的
精确度/召回率,所以我试图将其分成标签
和
预测两
浏览 28
提问于2019-05-03
得票数 0
回答已采纳
1
回答
"df['var'].map(df2)“
和
"df.var.map(df2)”总是
产生
相同
的
结果
吗?
python
、
pandas
、
dataframe
我有一个
带有
列df
的
dataframe df2,还有一个
带有
var
和
var2列
的
dataframe df2。两个数据格式中
的
两个列var完全相同。在我
的
示例中,df['var'].map(df2)
和
df.var.map(df2)得到了相同
的
结果
。我想问一下,这是否只是我
的
特定数据集中
的
巧合,还是总是如此。 非常感谢!更新:在我
的
示例中,下面的代
浏览 2
提问于2021-03-20
得票数 1
回答已采纳
1
回答
GroupBy
in
PySpark
与群熊猫
pyspark
、
group-by
、
pandas-groupby
我找不到熊猫.
groupby
()
和
PySpark
.
groupBy
()之间
的
区别(用在DataFrame
上
)。有什么不同吗?我也得到了同样
的
结果
。如果有差异,我如何知道什么时候使用它,以防我同时处理
PySpark
。谢谢!
浏览 5
提问于2022-07-05
得票数 0
回答已采纳
1
回答
如何在dataframe spark中使用
groupby
进行计数排序
python
、
pyspark
from
pyspark
.sql.functions import hour hour = checkin.
groupBy
(hour("date").alias("hour")).
count
().show
浏览 71
提问于2021-07-14
得票数 0
回答已采纳
1
回答
PySpark
中
的
聚集稀疏向量
apache-spark
、
pyspark
、
apache-spark-sql
、
apache-spark-ml
我有一个Hive表,它包含与每个文档相关联
的
文本数据
和
一些元数据。看上去像这样。from
pyspark
.ml.feature import Tokenizer现在我想按月分组并返回如下内容: month word
count
浏览 2
提问于2017-01-03
得票数 5
回答已采纳
1
回答
pySpark
组
的
条件累加
pyspark-sql
pySpark
中
的
新手提出了一个简单
的
问题:我有一个df,我想要进行一个条件累加,如果分母与0不同,则返回聚合
结果
。我
的
试探性
产生
了一个错误:exprs=[(sum("A")+(sum("B"))/sum("C") if sum("C")!=0 else 0 ] grouped_df=new_df.
groupby
(
浏览 3
提问于2017-09-19
得票数 2
回答已采纳
1
回答
与单独运行相比,具有多个聚合
的
吡火花旋转数据要长/冻结得多。
apache-spark
、
pyspark
、
pivot
假设这一步骤是必要
的
,它似乎无休止地运行在16节点4 cpu
上
,每个cpu
的
内存为30 16,cpu利用率为100% (4)。见 我做错了什么?)df_
groupby
.pivot(pivot_col, pivot_distinct_values).agg(a).
count<
浏览 1
提问于2021-01-28
得票数 1
5
回答
组
和
计数在sql中是如何工作
的
sql
、
mysql
、
count
、
group-by
1> select browser,
count
(*) from logtest group by browser;| browser |
count
-+| Unknown | 11 |2行集+-----------+------
浏览 3
提问于2010-10-28
得票数 3
回答已采纳
1
回答
火花放电数据帧中分组元素
的
分组计数与划分
python
、
apache-spark
、
pyspark
我在
pyspark
中有一个数据框架,如下所示。我想做
groupby
和
category列在data frame中
的
计数+--------+----++--------+----+| cat1| 5|我得到了我想要
的
结果
。data frame有3天
的
记录。我想计算这3天
的
平均计数。 我想要
的<
浏览 1
提问于2018-05-16
得票数 2
回答已采纳
2
回答
大型数据仓库
上
的
Pyspark
dataframe
、
apache-spark
、
pyspark
、
apache-zeppelin
我们有一个非常大
的
,我们需要在它
上
执行一个
groupBy
操作。我们试过了它花了很长时间(它已经运行了超过17小时,但没有
结果
)。我也试过但据我所知,这种行为是一样
的
。我知道,在这么大
的
数据量
上
浏览 0
提问于2020-08-27
得票数 0
5
回答
PySpark
-获取重复行
的
索引
python
、
apache-spark
、
pyspark
假设我有一个
PySpark
数据框,如下所示:|a |b |c |d ||1 |0 |1 |2 ||1 |0 |1|2 |+--+--+--+--++--+--+--+--+--++--+--+--+--+--+|0 |2 |0 |1 |0 ||0 |4 |3 |1 |0 | +--+--+--
浏览 2
提问于2018-06-15
得票数 6
3
回答
星火数据组不计算空值。
sql
、
apache-spark
、
group-by
、
null
、
apache-spark-sql
我有一个星星之火DataFrame,它由一个与计数聚合
的
列组成:|a |
count
(a) || null| 0|+---------+----------------+ df.selec
浏览 2
提问于2017-09-18
得票数 4
回答已采纳
1
回答
pyspark
groupby
使用字符串
groupby
键在输出中生成多行
sql
、
pyspark
pyspark
groupby
操作不会为大型数据集生成唯一
的
组键 .
groupBy
('key') \例如,上面的查询返回
groupBy
列(键)
的
多行。
groupby
列(‘key’)
的
数据类型为字符串。key1, 10key1, 05 在Spark 2.4.3
和
2.3
浏览 12
提问于2019-11-12
得票数 0
回答已采纳
2
回答
Groupby
/聚合显示以前应该过滤掉
的
组
python
、
pandas
、
group-by
我有一个
带有
Size栏
的
熊猫Size,我先在它上过滤,然后按组分组并计数记录。
结果
还包含以前过滤掉
的
组
的
行,但计数为0: df[df["Size"].isin(("XXS", "XS", "S", "M", "L", "XL", "XXL"))] .
浏览 8
提问于2022-11-18
得票数 0
回答已采纳
1
回答
用Python实现Apache Spark
和
groupBy
的
相关性
python
、
apache-spark
、
correlation
我是Python
和
Apache Spark
的
新手,正在尝试理解函数"
pyspark
.sql.functions.corr (val1,val2)“是如何工作
的
。我有汽车品牌,年龄
和
价格
的
大型数据框架。我想要得到每个汽车品牌
的
年龄
和
价格之间
的
相关性。我有两个解决方案:get_all_maker = data.
groupBy
("brand
浏览 17
提问于2019-10-27
得票数 0
1
回答
从Pandas
groupBy
到
PySpark
groupBy
pandas
、
apache-spark
、
pyspark
考虑一下星火DataFrame,在这里我们有很少
的
列。目标是对其执行
groupBy
操作,而不将其转换为Pandas DataFrame。等价
的
Pandas
groupBy
代码如下所示: return pd.Series({gdf = df.
groupBy
([
浏览 5
提问于2017-03-14
得票数 4
回答已采纳
1
回答
从Scala Spark到
PySpark
的
熵计算转换
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
、
pyspark-sql
("select cluster as _1,
count
(*) as _2 from test group by cluster, label order by cluster desc") result.collect() 它正在工作并输出所需
的
结果
: Array[org.apache.spark.sql.Row
浏览 27
提问于2019-12-29
得票数 0
回答已采纳
1
回答
在
pyspark
中分组时,对另一列中满足额外条件
的
元素进行计数
python
、
python-3.x
、
pyspark
以下
pyspark
命令 df = dataFrame.
groupBy
("URL_short").
count
().select("URL_short", col("
count
").alias("NumOfReqs")) 创建了以下
结果
。dataFrame中,我有一个名为success
的
列,其类型为text。在
结果
中,我希望有一个额外
的
列,例如,NumOfSuccess,它计算
浏览 19
提问于2018-12-18
得票数 1
回答已采纳
1
回答
熊猫群()
和
agg()方法在列上
的
混淆
python
、
pandas
、
dataframe
、
pandas-groupby
我能检查一下
和
df[['column1', 'column2']].
groupby
('column1').agg({'column2': 'mean', 'column2
浏览 6
提问于2022-02-28
得票数 1
回答已采纳
1
回答
不带
groupby
的
计数
和
非重复计数使用
PySpark
python
、
pyspark
、
pyspark-sql
我有一个数据帧(testdf),希望在另一列(booking/rental)不为null或非空(即“”)
的
列(memid)
上
获得计数
和
非重复计数。testdf100 Y 120 Y预期
结果
:(对于预订列不为空/非空)
count
(memid)
count
(distinct memid) 3
浏览 44
提问于2018-06-05
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Pandas分组与聚合(一)
遇见YI算法之初识Pyspark(二)
Pandas 2.0 vs Polars:速度的全面对比
为什么10.24程序员节,我却需要加班?
MySQL、Python中数据去重的操作方法
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券