腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
spark
中
的
并行
聚合
速度
不快
?
scala
、
apache-spark
正如上面提到
的
最后一个问题与我2011年
的
问题有关,我再次询问.. 我试图证明,在
并行
Spark
阵列上
聚合
比在普通阵列上
聚合
(全部在4核Dell XPS上)更快。import org.apache.
spark
.{SparkConf, SparkContext} versi
浏览 20
提问于2020-07-17
得票数 0
1
回答
Scala
聚合
函数与
Spark
聚合
函数
scala
、
apache-spark
、
aggregate-functions
、
lazy-evaluation
以下是函数
的
定义:aggregate[B](z: => B)(seqop: (B, A) => B, combop: (B, B) => B): Baggregate[B](z: B)(seqop: (B, A) => B, combop: (B, B) => B): B 我知道Scala
聚合
函数是为
并行
集合设计
的
,
Spark
聚合
函数设计用于处理分布式集合。但是,
为什么
Scala
中
的
浏览 1
提问于2020-12-31
得票数 3
1
回答
提高读取拼图文件
的
并行
度-
Spark
优化自连接
apache-spark
、
optimization
、
apache-spark-sql
、
self-join
我已经注意到我需要生成更多
的
并行
性: --conf
spark
.sql.shuffle.partitions=4000 \ --conf
spark
.default.parallelism=4000 \我还能做些什么来加快这个查询
的
计算
速度
呢?我是不是漏掉了什么? 下面,您将看到在读取自连接数据时尝试增加
并行
度
的
各种失败尝试。即使没有手动重新分区,它也太慢了,而且我担心没有创建足够
的
分区: ? 甚至更少
的
任务
浏览 21
提问于2020-04-07
得票数 2
回答已采纳
1
回答
如何通过
并行
计算使Python程序更快?
python
、
multithreading
、
parallel-processing
、
multiprocessing
、
sample-data
我想从人群
中
抽取样本,然后对样本做一些操作。我想用Python编程。我需要使用多线程,多线程还是地图还原之类
的
东西?我怎样才能测试它是否真的更快?在我
的
Macbook-Air上,当我使用线程进行简单
的
打印时,它不会更快,如果我做了一个正常
的
循环。
浏览 2
提问于2016-05-11
得票数 0
回答已采纳
1
回答
Scala
中
的
Spark
分组贴图UDF
scala
、
dataframe
、
apache-spark
我正在尝试编写一些代码,使我能够在数据帧
的
一组行上计算一些操作。在PySpark
中
,这可以通过定义类型为GROUPED_MAP
的
Pandas UDF来实现。然而,在Scala
中
,我只找到了一种创建自定义
聚合
器(UDAF)或传统UDF
的
方法。 我
的
临时解决方案是生成一个关键字列表,该列表将对我
的
组进行编码,这将允许我过滤数据帧并对数据帧
的
每个子集执行操作。然而,这种方法并不是最优
的
,而且
速度
非常慢。执
浏览 2
提问于2020-04-08
得票数 2
1
回答
在S3
中
对外部配置单元表
的
Pyspark写入不是
并行
的
apache-spark
、
amazon-s3
、
hive
、
pyspark
、
emr
我有一个在s3
中
定义了位置
的
外部配置单元表当在
聚合
大量数据
的
pyspark作业结束时写入此表时,写入Hive
的
速度
非常慢,因为只有一个执行器当写入HDFS支持
的
表时,写入是
并行
进行
的
,并且
速度
要快得多。 我尝试使用s3a路径定义表,但是由于一些模糊
的
错误,我
的
作
浏览 6
提问于2016-08-18
得票数 3
2
回答
当使用cassandra
spark
连接器进行数据
聚合
时,如何
并行
化RDD工作?
apache-spark
、
cassandra
、
spark-cassandra-connector
这里是示例senario,我们在cassandra中有实时数据记录,我们想要
聚合
不同时间范围内
的
数据。我写
的
代码如下: timeRanges.foreach { timeRange => val (timestampStart代码
的
问题是,对于每个时间范围,
聚合
工作都不是以
并行
方式运行
的
。我
的
问题是,我如何
并行
化
聚合</
浏览 5
提问于2016-01-12
得票数 1
2
回答
哪种类型
的
数据库适合对数百万行进行实时
聚合
操作
database
、
cassandra
、
nosql
、
teradata
、
rdbms
大多数查询将按操作(
聚合
)进行分组。我目前使用Teradata作为数据库后端。但是响应时间不是实时
的
(有些查询大约需要30秒)。我正在研究Cassandra作为替代,但在一些文档
中
,我发现如果有group by操作,那么Cassandra不是最佳选择。假设最多有100个用户同时使用应用程序(以及
并行
发生
的
数据更新),哪种数据库最适合我
的
用例?任何传统
的
RDBMS都可以处理这种需求吗? 任何帮助都将不胜感激。提前谢谢。
浏览 2
提问于2017-12-04
得票数 0
1
回答
并行
火花收集功能
python
、
apache-spark
、
pyspark
我注意到
spark
的
函数,collect在大数据集上
速度
非常慢,所以我尝试使用
并行
化来修复这个问题。
spark
= SparkSession.builder.appName('app_name').getOrCreate()这里是我尝试
并行
化我
的
收集函数
的</e
浏览 4
提问于2019-09-19
得票数 0
1
回答
为什么
使用
并行
集合不能更快呢?
scala
、
scala-2.9
、
parallel-collections
我只是想测试一下
并行
集合,我使用了下面这行代码(在REPL
中
):反对:但
并行
版本
的
速度
并
不快
。编辑1:是的,我确实有一个多核处理器 编辑2:好
的
,我自己“解决”了这个问题。isProbablePrime
的
实现似乎是问题所在,而不是<
浏览 3
提问于2011-05-27
得票数 7
1
回答
Apache
spark
和Map reduce之间
的
关系是什么?
shell
、
mapreduce
、
apache-spark
我有些关于星火框架
的
问题。 首先,如果我想编写一些运行在星星团上
的
应用程序,那么遵循地图减少过程是不可避免
的
吗?由于要遵循map-还原过程,许多代码必须更改为
并行
化表单,所以我正在寻找一些简单
的
方法来将当前
的
项目移动到代码很少变化
的
集群
中
。第二是关于火花壳.我尝试使用以下代码在集群上启动星火壳:MASTER=
spark
://IP:PORT ./bin/
spark
-shell。M
浏览 2
提问于2014-06-11
得票数 0
回答已采纳
1
回答
是否有可能在单个数据文件上
并行
运行多个
聚合
作业?
apache-spark
、
parallel-processing
、
pyspark
、
etl
有没有任何方法可以
并行
地在单个RDD上运行多个独立
的
聚合
作业?第一个首选是Python,然后是Scala和Java。按优先次序排列
的
行动方案如下: 使用卡夫卡-运行不同
的<
浏览 2
提问于2016-06-25
得票数 0
1
回答
你用
Spark
(用R或Python)查询Cassandra
的
方法是什么?
apache-spark
、
apache-spark-sql
、
spark-cassandra-connector
、
sparklyr
我正在处理存储在Cassandra
中
的
大约1TB
的
数据,并尝试使用
Spark
和R(可能是Python)来查询它。查询数据时,我更喜欢将要查询
的
Cassandra表抽象为
Spark
RDD (使用sparklyr和带有
spark
-sql
的
spark
-cassandra-connector ),并简单地对感兴趣
的
列(与我共事
的
公司说,这种方法是一个坏主意,因为它会转化为CQL
中
浏览 0
提问于2018-03-14
得票数 1
1
回答
spark
-elasticsearch连接器是否支持以多个
并行
方式读取es索引数据
elasticsearch
我在https://www.elastic.co/guide/en/elasticsearch/hadoop/master/
spark
.html#
spark
-read上阅读 我想读取属于某个索引
的
所有数据我想问一下这个
spark
-elasticsearch连接器是否支持多个
并行
的
读取,以便我可以加快读取
速度
。
浏览 64
提问于2021-08-04
得票数 0
1
回答
为什么
PermGen
的
填充
速度
不快
?
java
、
memory-leaks
、
permgen
} throw new RuntimeException(e);} 下面是由这个类加载器加载
的
Leak然后,我修改了Leak类,向它添加了20个名称很长
的
方法:} 由于方法名称驻留在PermGen
中
,这样
的
修改将加快PermGen
的
填充
速度
。但是,动态分析(使用JVisualV
浏览 0
提问于2014-12-29
得票数 1
回答已采纳
1
回答
星火流作业运行非常慢
apache-spark
、
pyspark
、
spark-streaming
StructField("time", StringType(), True) .builder.master("local[8]") \
浏览 0
提问于2019-04-17
得票数 2
回答已采纳
1
回答
在Apache星火库中使用Reduce
hadoop
、
apache-spark
、
reduce
我试图使用Apache加载一个文件,并将该文件分发到集群
中
的
几个节点,然后
聚合
结果并获得它们。我不太明白该怎么做。据我所知,reduce操作使
Spark
能够将来自不同节点
的
结果组合起来,并将它们
聚合
在一起。我理解得对吗? reduce应该包含两个元素和一个用于组合它们
的
函数。这两个元素应该是星火上
浏览 0
提问于2015-03-05
得票数 0
回答已采纳
3
回答
独立模式下
的
火花
并行
apache-spark
、
pyspark
、
databricks
我正试图在我
的
系统
中
以独立模式运行火花。我
的
系统目前
的
规格是8核32 Gb内存。基于,我计算火花配置如下:
spark
.executor.cores 3
spark
.executor.memory20g我在我
的
jupyter笔记本
中
创建了这样
的<
浏览 8
提问于2017-07-22
得票数 7
回答已采纳
2
回答
为什么
使用Java线程
的
速度
不快
?
java
、
multithreading
我有下面的程序从字符串向量
中
删除偶数,当向量变大时,可能需要很长时间,所以我想到了线程,但使用10个线程并不比1个线程快,我
的
PC有6个核心和12个线程,
为什么
?e) { e.printStackTrace(); } } Remover_Thread.start();} 在我
的
程序
中
,你可以尝试“方法1:使用10个线程”或“方法2:只使用一个线程”在
速度
方面没有太大差异,我解释它要快几倍,
为什么
浏览 0
提问于2011-07-21
得票数 3
回答已采纳
1
回答
我们是在dataframe上使用groupBy还是使用reduceBy
apache-spark
、
group-by
、
spark-dataframe
而在groupBy
中
,apache
中
的
dataframe会触发并在以后使用
聚合
,并在dataframe中使用另一列。有什么性能问题吗?reduceBy是一个更好
的
选择吗?
浏览 0
提问于2018-03-27
得票数 3
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
为什么英雄联盟中,国服的更新速度总是比“韩服美服”慢?
Spark关键性能考量
大数据测试学习笔记之基准测试HiBench
分布式TensorFlow:使用多台GPU服务器,减少神经网络的实验与训练时间
Spark之数据倾斜
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券