腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
Apache
Spark
中
查找
每台
计算机
计算
的
分区
数
目前,我正在调查我
的
Apache
Spark
集群
中
工作负载不平衡
的
可能性。是否可以
在
Apache
Spark
UI或历史服务器
中
查看
每台
机器分配
的
分区
数量?
浏览 25
提问于2019-06-28
得票数 0
1
回答
星火如何利用
每台
机器
中
的
多核并行性?
、
我
在
集群
中
以独立模式运行
Spark
(100台机器,
每台
计算机
16个CPU核,
每台
机器32 GB RAM )。我在运行任何应用程序时都会指定
SPARK
_WORKER_MEMORY和
SPARK
_WORKER_CORES。
在
星火程序设计
中
,我把它当作一个串行程序来编程,然后星火框架会自动并行任务,对吗?当然,通过数据并行来开发多线程需要更大
的
内存,但我不知道我
的
Spark</
浏览 2
提问于2017-01-23
得票数 0
回答已采纳
1
回答
使用JDBC将数据格式写入Postgresql时
的
java.lang.StackoverflowError
、
、
我正在尝试将多个操作
的
结果写入AWS Aurora PostgreSQL集群
中
。.jdbc. at org.
apache
.
spark
.sql.catalyst.trees.TreeNode$$anonfun$2.:256) atorg.<
浏览 2
提问于2019-09-29
得票数 0
2
回答
Spark
无效
的
检查点目录
、
我
在
我
的
程序中有一个长时间
的
迭代,我想每隔几次迭代就缓存和检查点(这个技术被建议用来减少web上
的
长历史),所以我不会有StackOverflowError,通过这样做}val sc = new SparkContext(conf)然而,当我最终运行我
的
程序时,我得到了一个异常 Exception in
浏览 2
提问于2015-09-05
得票数 2
回答已采纳
2
回答
通过AWS [EMR]提交星火申请
、
、
、
、
你好,我是云
计算
的
新手,所以我为这个愚蠢
的
问题道歉。我需要帮助知道我所做
的
到底是
在
集群上
计算
,还是仅仅在主(无用
的
东西)上
计算
。我能做
的
是:好
的
,我可以使用控制台在所有节点上安装一个包含一定数量
的
节点
的
集群。我可以通过SSH连接到主节点。那么,
在
集群上运行我
的
jar时,需要做什么呢?假设我想
数
一个巨大
的
文本文件
浏览 4
提问于2017-04-15
得票数 1
回答已采纳
1
回答
如何为HadoopPartitions
计算
Spark
的
默认
分区
?
、
我正在阅读,关于
分区
,他说
浏览 1
提问于2018-12-01
得票数 1
回答已采纳
3
回答
Apache
:
每台
计算机
的
TaskManagers
数
每台
机器
的
CPU核
数
是4个。
在
flink独立模式下,我应该如何设置
每台
机器上
的
TaskManagers数量? 1 TaskManager,每个TaskManager有4个插槽。
浏览 0
提问于2018-12-27
得票数 1
1
回答
SPARK
_WORKER_CORES设置对火花单机并发性
的
影响
、
、
、
我使用
的
是以独立模式配置
的
Spark
2.2.0集群。集群有2台八位
数
核心机器。此群集只用于火花作业,没有其他进程使用它们。我有大约8个星火流应用程序运行在这个集群上。我显式地将
SPARK
_WORKER_CORES (
在
Spark
-env.sh
中
)设置为8,并使用全执行器核心设置为每个应用分配一个核心。此配置减少了并行处理多个任务
的
能力。如果一个阶段在有200个
分区
的
分区
RDD上工作
浏览 0
提问于2018-01-29
得票数 1
回答已采纳
1
回答
在这种情况下,火花是如何内部工作
的
?
、
、
我有一个带有四核
的
单机processor.Here是我
的
理解火花如何在这里实现并行 根据步骤2
中
的
分区
大小,它将生成线程。
浏览 3
提问于2017-06-13
得票数 0
1
回答
星火RDD
中
的
分区
数
、
、
我通过指定
分区
数来从文本文件创建一个RDD (
Spark
1.6)。但是它给出了与指定
分区
不同
的
分区
数
。案例1people: org.
apache
.
spark
.rdd.RDD将用于rdd
分区
。 基于上
浏览 0
提问于2020-05-31
得票数 0
1
回答
从
spark
中
的
sql server并行读取
、
、
我正在使用com.microsoft.sqlserver.jdbc.SQLServerDriver
在
spark
作业
中
从sql server读取数据。为了提高性能,需要并行读取数据。
spark
job建立
的
连接
数
是否等于
spark
-submit命令
中
的
核心数?
浏览 0
提问于2019-06-28
得票数 1
2
回答
为什么行计数作业
在
火花壳
中
运行速度比mapreduce作业慢
我做了一个测试,以比较火花和mapreduce
的
性能。我有三个节点集群,每个节点具有128内存。下面是启动火花壳
的
命令和火花作业
的
代码。/l
浏览 3
提问于2016-09-23
得票数 2
回答已采纳
1
回答
理解驱动程序和执行器配置
的
术语
、
、
、
、
我
在
每个分布式
计算
开放源码项目中都经常看到以下术语,特别是
在
Apache
中
,并希望通过一个简单
的
例子得到解释。
spark
.driver.cores -用于驱动进程
的
核
数
,仅在群集模式下使用。
spark
.driver.memory -驱动程序进程要使用
的
内存量
spark
.executor.cores -
在
每个执行器上使用
的
核
数</em
浏览 8
提问于2022-06-24
得票数 0
1
回答
如何在星火中
计算
内部连接
的
分区
数
?
、
、
df_B.createOrReplaceTempView('table_B')""")df_C.rdd.getPartitionsNumber() df_C=
spark
.sql(“”从table_A inner table_B on (.)table_A# => 160
中
选择*) 星火如何
计算
和使用这两个
分区
为两个连接
的
数据文件?连接
的
dataframe
的
浏览 1
提问于2021-05-23
得票数 2
1
回答
如何确定从节点同步线程
的
数量?
、
在我看来,这两个相关
的
参数是
spark
.default.parallelism和
spark
.cores.max。
spark
.default.parallelism设置内存
中
数据
的
分区
数
,
spark
.cores.max设置可用
的
CPU核心数。然而,
在
传统
的
并行
计算
中
,我会专门启动一些线程。无论可用内核
的
数量如何,每个
分区<
浏览 0
提问于2018-02-09
得票数 1
回答已采纳
1
回答
星火中
的
蜂箱
分区
和桶形支持不像预期
的
那样工作
、
在
使用S3
中
的
分区
时,
Spark
逐个列出所有
分区
,这将消耗time.Rather &它应该在元存储表
中
查找
分区
&应该立即进入
分区
。我尝试以125个partitions.When为例,通过附加
分区
列值来
计算
S3的确切位置&尝试访问它,它在5sec.But
中
执行,如果我试图让
Spark
计算
出
分区</e
浏览 1
提问于2017-10-22
得票数 0
回答已采纳
3
回答
如何加快excel
的
读写速度
、
、
、
作为实习生,我正在使用
Apache
为我
的
公司读取/写入excel文件。我
的
程序通过excel文件,它是一个大方格,上面有行、
计算机
名和左列用户名。240台
计算机
和342个用户。单张
计算机
在所有空格
中
为0,程序为
每台
计算机
调用PSLoggedon,并使用当前登录
的
用户名并增加它们
的
0,因此在运行一个月后,它将显示谁对
每台
计算机
登录最多。到目前为止,
浏览 16
提问于2015-07-06
得票数 1
1
回答
我可以用SQL语句指定并行度吗?
、
我很喜欢使用
Spark
,但就在此之前我遇到了一个问题。由于RDD
的
每个
分区
的
大小限制,
Spark
会产生以下错误消息;(INT_MAX)。$$anonfun$getBytes$2.apply(DiskStore.scala:125) at org.
apache
.
s
浏览 5
提问于2016-03-03
得票数 1
回答已采纳
1
回答
在
Apache
中
RDD
分区
的
数量是如何确定
的
?
、
问题我是否需要显式地指定可用CPU核心
的
数量,这样
分区
的
数量将是相同
的
(例如并行化方法
的
numPartition arg,但是当内核
的
数量发生变化时需要更新程序)吗?背景对于node程序,
分区
数
为2
浏览 0
提问于2016-09-26
得票数 1
回答已采纳
1
回答
无
分区
和
分区
大小
的
RDD
我很好奇地想知道没有分割者
的
RDD和它
的
分区
大小
的
关系。以map()转换为例。它返回一个没有
分区
的
RDD (不出所料)。scala> val input = sc.parallelize(List(1, 2, 2, 3)) scala>
浏览 0
提问于2015-07-14
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据技术,Spark任务调度原理 四种集群部署模式介绍
Spark如何读取一些大数据集到本地机器上
Apache Doris在思必驰的应用优化实践:海量语音通话数据下,实时、离线一体的数仓架构设计实践
赋能直播行业精细化运营,斗鱼基于 Apache Doris 的应用实践
Apache Spark 3.0 预览版正式发布,多项重大功能发布
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券