腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
火花
急流
:
简单
的
HashAggregate
示例
rapids
大家好,我是新来
的
火花
急流
。我正在浏览Spark Rapids
的
基本介绍,在那里我得到了一个附图(附图),解释了基于CPU和GPU
的
查询计划之间
的
差异,例如哈希聚合。计划中
的
所有内容,除了最后一阶段转换为行格式之外,我都不清楚。有人能建议一下这背后
的
原因吗?
浏览 69
提问于2020-10-12
得票数 0
1
回答
并行数据预处理
machine-learning
、
parallel
、
cuda
我在找一个建议。是否可以并行实现数据预处理步骤,如缺失值计算、孤立点检测、归一化、标签编码等?我能为数据预处理实现cuda/openmp/mpi编程吗? 谢谢。
浏览 0
提问于2022-09-08
得票数 2
回答已采纳
1
回答
使用`df.select(列).distinct().collect()来获取数据中
的
唯一值
apache-spark
根据我对
火花
如何工作
的
有限理解,当调用.collect()操作时,将对列column中
的
数据进行分区,在执行器之间进行拆分,将.distinct()转换应用于每个分区,并将取消
的
结果发送给驱动程序。但是,是否有可能在驱动程序中复制记录(因为重复是在每个执行器上独立进行
的
)?我们是否需要在收集
的
结果上再次应用.distinct()以消除重复
的
结果?
浏览 2
提问于2022-08-01
得票数 0
回答已采纳
1
回答
为什么星火计数行动分三个阶段执行
apache-spark
、
apache-spark-sql
为什么这个
简单
的
动作被执行为三个阶段。我认为第一阶段是加载文件,第二阶段是在每个分区上找到计数。val sample = spark.read.format("csv").option("header", "true").option("inferSchema", "true").option
浏览 3
提问于2019-11-06
得票数 2
回答已采纳
1
回答
为什么Spark要运行5个作业来进行
简单
的
聚合?
apache-spark
、
apache-spark-sql
我在IDE/eclipse
的
local模式下使用Spark。 spark.sql(totalMoneySql).show(false) spark.stop() 如图所示,一个
简单
的
计算
的
钱
的
总和,为每个城市现在
火花
-UI显示==> 5就业,每一个2阶段! 但是
浏览 10
提问于2019-10-25
得票数 4
回答已采纳
2
回答
查询执行程序-上一步
的
开始与下一步
的
结束不重叠。
postgresql
我查看了Postgres查询计划,注意到上一步开始时间与下一步结束时间没有重叠,所以我想知道间隔时间是在哪里度过
的
?正如您在下面看到
的
,查询执行程序有两个步骤。我
的
问题是5730.776到19199.316年间发生了什么?--------------------------------------------------------------------------------------------------
HashAggregate
浏览 7
提问于2013-09-22
得票数 4
回答已采纳
1
回答
火花
ENSURE_REQUIREMENTS解释
apache-spark
有人能用一个实际
的
例子来解释ENSURE_REQUIREMENTS是如何产生
的
吗?我看了一下这里,,但我不知道该怎么做。斯派克
的
某种保险让事情进展顺利?您可以参考我
的
另一个这样
的
问题:。在那里,我做了实验,但不知道为什么会发生这种情况。 我
的
同事也不能解释。
浏览 3
提问于2022-10-30
得票数 1
回答已采纳
1
回答
在Apache spark SQL中如何计算不同
的
工作
apache-spark
、
apache-spark-sql
我正在尝试计算不同日期范围内
的
不同实体数量。我需要了解spark是如何执行这个操作
的
from daily_cust_12month_ds没有错误,但这需要花费大量
的
时间我想知道在Spark中有没
浏览 0
提问于2019-07-17
得票数 2
2
回答
为什么Postgres在分组之前对多行进行排序?
postgresql
这是我
的
桌子: Column | TypeKEY, btree (code)这是我
的
疑问CCG' ORDER BY date, row_id;
浏览 0
提问于2015-08-05
得票数 8
1
回答
从蜂巢数据分区计算均值时
的
意外混乱
apache-spark
、
hive
、
pyspark
、
pyspark-sql
我
的
问题:为什么
火花
从每个分区计算sum和count,做一个不必要
的
(IMHO)洗牌(Exchange hashpartitioning),然后计算
HashAggregate
中
的
平均值我正在从下面定义
的
Hive表中读取数据,该表是按日期划分
的
。/daily_temp/" 它包括从下载
的
美国各
浏览 0
提问于2018-05-03
得票数 1
1
回答
用Sparks安装安全CodeIgniter
codeigniter
、
security
、
sparks-pakage-management
安装CodeIgniter假定您遵循默认
的
index.php安装模式;将应用程序、系统和用户指南文件夹与index.php和许可证文件一起提取到web根目录中。然而,出于安全考虑,我们中
的
许多人将应用程序和系统文件夹从web根目录中提取出来,并在主$system_path文件中重新路由index.php和$application_folder变量。这种分离倾向于破坏
火花
装置。特别是,在中使用
的
简单
示例
火花
。得到一个错误: 遇到错误无法在
火花
/
浏览 0
提问于2011-06-07
得票数 14
回答已采纳
2
回答
如何从DHT中提取
急流
文件?
bittorrent
、
dht
、
kademlia
我编写了一个,用于查找给定info_hash
的
示例
对等I。我在BEP-0005中看不到这样
的
信息:我如何从DHT中实际地提取
急流
文件?
浏览 4
提问于2016-03-09
得票数 4
回答已采纳
1
回答
带有限制和HashAggregates
的
慢速查询
postgresql
、
database-performance
Postgres 9.3有什么理由不能在收集了n行之后停止呢?(cost=176992.00..176992.01 rows=1 width=4) (actual time=5185.125..5185.125 ro
浏览 0
提问于2013-11-21
得票数 1
回答已采纳
1
回答
Spark中
的
PushDownPredicate与Exchange重用
apache-spark-sql
我正在执行包含UNION
的
给定查询。我
的
目的是通过禁用shell中
的
PushDownPredicate配置设置来重用两个查询分支之间
的
交换。但是,我们
的
期望是--在禁用了PushDownPredicate 之后,
火花
将不会通过将筛选条件保存在查询
的
原始位置(即group by子句之后)来将筛选器推到源附近。*(2) Project [prodId#5539, count(1)#5576L] : +- *(2) Filter (count(1)#5579L > 1
浏览 2
提问于2020-07-15
得票数 0
回答已采纳
1
回答
PySpark + Cassandra:获取分区键
的
不同值
apache-spark
、
cassandra
、
pyspark
、
spark-cassandra-connector
我正试图在pyspark中获得cassandra表
的
分区键
的
不同值。然而,pyspark似乎不理解我,完全迭代所有数据(这是很多),而不是查询索引。这是我使用
的
代码,在我看来非常
简单
: .builder \然而,
火花
工作大约需要10个小时才能完成。从星火告诉我
的
计划来看,它似乎真的想迭代所有的数据: == Physical Pla
浏览 2
提问于2017-11-07
得票数 2
回答已采纳
1
回答
在分区列上,Dataframe
的
不同计数所花费
的
时间比非分区列
的
要长。
apache-spark
、
apache-spark-sql
、
parquet
我有一个dataframe df,按照这个顺序,列A,B,C,D保存为A,B,C列上分区
的
拼花文件。这对我来说毫无意义,因为第一个分区是在a之上
的
。造成这种行为
的
原因是什么?用
火花
解释编辑:(events .select('D') .explain()Adaptiv
浏览 0
提问于2021-09-09
得票数 2
1
回答
非常慢
的
火花
性能
performance
、
apache-spark
、
hive
我是一个新手
火花
,需要一些帮助来调试非常慢
的
性能在
火花
。我正在做下面的转换,它已经运行了2个多小时。VM集群上
的
hive.2.1.1读取数据,每个节点具有250 on和64个虚拟核心。有了这个巨大
的
资源,我期待着这个170万个recs
的
简单
查询能飞起来,但它非常慢。任何提示都会有很大
的
帮助。. +- *
HashAggregate
(keys=[c
浏览 0
提问于2017-06-07
得票数 0
2
回答
对象apache不是包org
的
成员。
scala
、
intellij-idea
、
apache-spark
我正在编译scala应用程序,我在标题中发现了输入
的
错误。Scala版本: scala 2.11.8
火花
版本: Spark 1.6.1 Intellij: 2016 1.3将:=命名为“
简单
项目”scalaVersion := "2.11.8“有可能scala
浏览 8
提问于2016-06-29
得票数 2
回答已采纳
1
回答
在postgresql中以不同
的
方式保留按in排序
的
顺序
postgresql
、
group-by
、
distinct
我有一个查询,它返回一个
简单
的
数字列表:就像143162125select distinct(id) from (select ...) as c; 不工作,因为它使用
HashAggregate
,它打破了顺序(并处理所有行只返回我尝试了GROUP BY,它还使用
HashAggregate
整个表(?)然后排序并返回10行所
浏览 6
提问于2021-12-14
得票数 1
1
回答
不使用Maven
的
Apache程序执行
apache-beam
、
apache-beam-io
我想运行一个
简单
的
例子梁程序使用Apache
火花
跑步。1)我成功地在本地编译了这个程序。2)我希望将JAR文件推送到未安装Maven
的
QA框中。3)使用Maven命令编译并执行
示例
程序
的
示例
。4)请您告诉我在不安装Maven
的
情况下运行代码
的
步骤。5)
火花
-提交命令运行良好。6)你想让我把所有依赖
的
JAR文件一个一个地放到/opt/mapr/spark/sma
浏览 5
提问于2017-09-20
得票数 0
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券