腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Spark
:
仅对
DataFrame
中
的
部分
行
进行
分组
scala
、
apache-spark
、
apache-spark-sql
在给定
的
DataFrame
中
,我只想将几行
分组
在一起,并将其他
行
保持在相同
的
数据帧
中
。我目前
的
解决方案是: val aggregated = mydf.filter(col("check").equalTo("do_aggregate")).groupBy(...).agg() valfinalDF = aggregated.unionByName(mydf.filter(col("check"
浏览 22
提问于2019-10-14
得票数 0
2
回答
Python: pandas数据帧
中
的
条件group by
python
、
pandas
、
group-by
如何在
dataframe
中
执行条件group by操作,即只对满足特定条件
的
元素
进行
分组
,而保持其他元素不变?假设我有以下数据帧: initial
dataframe
如何
仅对
类型为"type 2“
的
元素
进行
分组
并将新名称设置为"z” resulting
dataframe
浏览 25
提问于2020-11-05
得票数 0
回答已采纳
1
回答
将Hadoop
中
的
大数据导入
Spark
的
有效方法
apache-spark
、
pyspark
、
apache-spark-sql
由于我在大数据领域才刚刚起步,我正在寻求关于如何将一些数据放入
Spark
以
进行
分析
的
最有效方法
的
建议。 SQL查询相当大,有多个子查询,每个子查询都有自己
的
"when“、"group by”等。The最终数据大约有100万到2000万
行
。如果我运行一个
spark
sql查询并使用pyspark将其保存到一个
dataframe
中
,或者如果我将每个子查询提取到不同
的
spark
<em
浏览 20
提问于2021-02-07
得票数 0
1
回答
按聚合(求和)双
进行
分组
在
spark
中产生不一致
的
结果
scala
、
apache-spark
、
pivot
、
rounding
、
aggregation
我在Scala和
Spark
2.0
中
看到了一些不一致
的
行为,它们聚集双倍,然后根据聚合值
进行
分组
。这只发生在集群模式下,我相信这与双数相加产生一个稍微不同
的
数字
的
顺序有关。在初始聚类后,我根据求和值对结果和
分组
进行
分析。有时看到1
行
,有时根据小数点20位左右
的
值,看到2
行
。我无法显示完整
的
示例,但这里是REPL
中
的
简化/
浏览 3
提问于2017-03-07
得票数 0
回答已采纳
2
回答
将cache()和count()应用于数据库
中
的
Spark
是非常慢
的
。
python
、
apache-spark
、
pyspark
、
azure-databricks
然而,在我尝试这样做
的
过程
中
,我遇到了以下悖论:步骤1:从Azure数据湖存储帐户读取800万
行
read_avro_data=
spark
.read.format("avro"我
的
应用程序有800万
行
,运行得很好,但我想在大数据环境
中
对我
的
应用程序
进行
压力测试。因为800万
行
不是大数据。因此,我复制了我
的
800万
行
--
浏览 0
提问于2020-06-01
得票数 3
回答已采纳
2
回答
如何在
DataFrame
中
跨组使用LinearRegression?
dataframe
、
pyspark
、
apache-spark-sql
、
apache-spark-mllib
假设我
的
spark
DataFrame
(DF)看起来像----------------------------id | intercept| slope ----------------lr_object.intercept_, lr_ob
浏览 1
提问于2017-05-04
得票数 1
1
回答
使一个函数成为.agg()在groupBy语句中
的
组件,将生成一个AssertionError
python
、
pandas
、
apache-spark
=
spark
.sparkContext
spark
_
dataframe
= pd.
DataFrame
( 我
的
问题 我按ID对数据
进行
分组
,并希望将应用于函数
中
的
聚合。因
浏览 3
提问于2020-07-01
得票数 1
回答已采纳
1
回答
Excel扇区图表组
行
excel
、
charts
现在我要显示图表
中
每个类别的总和。如何
仅对
图表
中
相同类别的
行
值
进行
分组
?
浏览 0
提问于2018-05-19
得票数 0
回答已采纳
2
回答
生成不相交
的
火花
DataFrame
集
apache-spark
、
apache-spark-sql
只要多个列
中
的
一个列具有相等值,我就会对
Spark
DataFrame
进行
分组
。("a3", "b2", "c3"), ("a5", "b5", "c5") ).toDF("a", "b", "c&qu
浏览 20
提问于2020-07-02
得票数 1
1
回答
使用Apache
Spark
和AWS从每日CSV文件生成月度数据
amazon-web-services
、
apache-spark
、
amazon-athena
、
aws-glue
我
的
CSV文件具有相同
的
列和一百万个匹配
的
ID,用于2018年
的
每一天。每一列都有5列,不包括ID。我想按月连接文件,这样每个月
的
文件都有5列*天数,因此1月份将有155个名称为Day1-Col1,Day1-Col2...第31天-Col5。 这是我可以用Apache
Spark
做
的
事情吗?我选择
Spark
是因为我想将数据放入AWS Athena数据集中,而AWS Glue似乎可以通过
Spark
SQL查询来实现这一点。我想我们会先把
浏览 18
提问于2019-09-17
得票数 0
回答已采纳
1
回答
用Apache和Java对
DataFrame
进行
分组
和聚合?
java
、
apache-spark
、
apache-spark-sql
我有一个
DataFrame
,它在
Spark
中加载了以下模式:如何通过电子邮件对其
进行
分组
,计算每个组
中
的
记录,并使用此模式返回a
DataFrame
: 电子邮件,first_name,last_name,order_count
浏览 0
提问于2016-01-25
得票数 1
回答已采纳
1
回答
在Pandas
DataFrame
中
对行
进行
排序
python
、
pandas
、
dataframe
、
sorting
我正在尝试
仅对
DataFrame
中
的
选定行
进行
排序。下面是我
的
代码: df = pd.
DataFrame
.from_dict(data_set) df.loc[df.category == 'Filter_Category'] = df.loc[df.category== 'Filter_Category'].sort_values(by=['Field_Name'], inplace=True) 这导致在更新
浏览 9
提问于2020-03-30
得票数 0
2
回答
触发数据帧groupBy并将结果排序到列表
中
apache-spark
、
dataframe
、
apache-spark-sql
我有一个
Spark
Dataframe
,我想按键对元素
进行
分组
,并将结果作为排序列表df.groupBy("columnA").agg(collect_list("columnB")) 如何使列表
中
的
项目按升序排列?
浏览 5
提问于2016-08-01
得票数 18
回答已采纳
1
回答
如何在
spark
中
从
dataframe
创建多个列表?
mongodb
、
scala
、
apache-spark
、
spark-dataframe
如何在
spark
中
从
dataframe
创建多个列表。在我
的
例子
中
,我希望使用
分组
特定键对mongodb文档
进行
排序。并且创建多个列表,这些列表是基于模式
的
一个键
进行
分组
的
,请帮助我MongoSpark.load[
浏览 1
提问于2017-08-24
得票数 1
1
回答
当sum()列时,我得到错误AttributeError:'
DataFrame
‘对象没有属性'sum’
sum
、
pyspark
、
word-count
我有这样
的
数据:|count| country|| 12| Ireland|+-----+--------+ AttributeError: '
DataFrame
' object has no attribute谢谢你,感谢你
的
帮助。
浏览 3
提问于2017-05-29
得票数 1
2
回答
将自定义函数应用于星火数据访问组
apache-spark
、
dataframe
、
group-by
、
dataset
、
pyspark
我有一个非常大
的
时间序列数据表,其中包含以下列: 我计划在
dataframe
中使用
spark
,但我对如何对
spark
分组
数据执行自定义计算感到困惑。我需要做
的</
浏览 2
提问于2016-09-20
得票数 10
回答已采纳
2
回答
当我在window中使用partitionBy时,为什么
spark
/scala会得到不同
的
结果?
apache-spark
、
apache-spark-sql
我使用Window.sum函数来获取RDD
中
的
值
的
总和,但是当我将
DataFrame
转换为RDD时,我发现结果只有一个分区。重新分区发生在什么时候?5| 15|// | 7| 28|// +------+----+ val rdd=sc.parall
浏览 2
提问于2017-06-13
得票数 0
1
回答
如何在两个不同
的
DataFrames
中
添加相应
的
整数值
scala
、
apache-spark
我
的
代码中有两个DataFrames,维数完全相同,假设是1,000,000×50。我需要在两个数据文件
中
添加相应
的
值。如何实现这一目标。一个选项是添加另一个带有ids
的
列,union和DataFrames,然后使用reduceByKey。但还有其他更优雅
的
方式吗? 谢谢。
浏览 5
提问于2017-03-09
得票数 0
回答已采纳
1
回答
(py)
Spark
中
分组
数据
的
模式
python
、
apache-spark
、
pyspark
、
spark-dataframe
我有一个有多列
的
spark
DataFrame
。我想根据一列对行
进行
分组
,然后为每组找到第二列
的
模式。['y'])[0][0] ## x## 1 1在pyspark
中
,我能够找到单个列执行
的
模式 df = sql_context.createDataFrame(rand_val
浏览 1
提问于2016-04-16
得票数 10
回答已采纳
1
回答
用另一个聚合行在
dataframe
中
聚合
行
python
、
pandas
、
dataframe
、
pandas-groupby
c','e','','']} data现在,当我基于UID对数据
进行
分组
并聚合成组
行
的
数据时。注意,这里我不希望将带有uid = "“
的
行
分组
在一起。现在,我想按照上面的
dataframe
进行
分组
,让我们假设PID上
的
temp
d
浏览 1
提问于2020-08-21
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python 5-Pandas DataFrame 常用功能实践
大数据有道之spark选择去重
大数据有道之spark筛选去重
年薪50万+的大数据工程师需要具备哪些技能?
什么是Spark SQL,它的作用是什么?
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券