腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
使用
spark
中
的
Python
查找
DataFrame
中
的
分区
数量
以及
如何
使用
spark
中
的
Python
在
DataFrame
中
创建
分区
、
、
我有一个名为df
的
DataFrame
,我想知道
在
将数据读入
DataFrame
时是否可以
创建
分区
和 我还想知道
如何
才能找到
DataFrame
中
的
分区
数量
。我搜索了多个显示以下df.rdd.getNumPartitions()
的
答案,但默认情况下它只返回1。 我尝试了coalese()和repartition来改变粒子
的
数量
。 请
浏览 102
提问于2021-08-20
得票数 0
回答已采纳
1
回答
Spark
在
默认情况下是
如何
分区
的
?
、
、
我知道RDD是根据键值
使用
HashPartitioner进行
分区
的
。但是
Spark
在
默认情况下是
如何
分区
的
,因为它没有键/值
的
概念。
浏览 3
提问于2021-02-26
得票数 3
回答已采纳
1
回答
与
DataFrame
#coalesce等效
的
sql语法是什么?
有了sql,我们可以缩小
分区
的
数量
,我想要在
spark
DataFrame
.coalesce中
使用
的
相同功能,所以我会问
如何
编写sql,
在
spark
sql
中
,我希望select * from a只有10个
分区
,实际上可能有100个以上
的
分区
浏览 7
提问于2019-03-21
得票数 0
1
回答
Apache
如何
计算
分区
以及
如何
在executor
中
处理
分区
、
、
、
我需要一些帮助来理解
Spark
如何
决定
分区
的
数量
以及
它们是
如何
在执行器
中
处理
的
,对于这个问题我感到很抱歉,因为我知道这是一个重复
的
问题,但是即使
在
阅读了很多文章之后,我仍然无法理解我正在
使用
的
实际生活用例,
以及
我
的
星火提交配置和集群配置。
spark
.speculation=true \ 我正在
使用</e
浏览 3
提问于2017-09-01
得票数 1
1
回答
星火拼花数据帧
分区
数目
、
、
、
rdd partitions: {}",
dataFrame
.rdd().getNumPartitions()); 我
使用
spark
.executor.instances=3和
spark
.executor.cores=4
在
集群上运行它。我可以看到,
在
3个执行器X4核=12个任务
中
,对拼花文件
的
读取是分开
的
:
spark
.SparkContext:
浏览 3
提问于2017-06-28
得票数 4
1
回答
如何
在星火数据
中
强制重新
分区
?
、
、
、
the previous
spark
dataframes 现在,上述每个操作都需要不同
数量
的
分区
。选择行需要许多
分区
,比如100个
分区
。合并需要很少
的
分区
,比如10个
分区
。
如何
强制
在
步骤1和步骤2
以及
步骤2和步骤3之间重新
分区
?我知道,当我调用data = data.repartition(7)时,它会被延迟计算,所以只有
在
实际保存时才会重新<
浏览 2
提问于2017-08-01
得票数 6
回答已采纳
2
回答
Spark
Dataframe
分区
数
、
、
有人能解释一下为
Spark
Dataframe
创建
的
分区
数量
吗?但是对于
Spark
dataframe
,
在
创建
时,我们看起来没有像RDD那样指定<e
浏览 1
提问于2016-09-07
得票数 9
回答已采纳
1
回答
从Hive表
中
读取数据
创建
的
spark
数据帧
的
分区
数
、
我对
spark
dataframe
的
分区
数量
有疑问。如果employee表有10个不同
的
位置因此,
在
HDFS
中
,数据将被划分为10个
分区
。 如果我通过读取Hive表(Employ
浏览 0
提问于2017-05-10
得票数 4
1
回答
将文件名输出到pyspark
中
的
最终文件夹
、
我想要将数据写入输出文件夹,而不
使用
标准格式
spark
: ? 有没有办法输出只有一个特定
的
文件名和扩展名(json)
的
数据? 提前感谢您
的
帮助!
浏览 19
提问于2019-12-10
得票数 1
回答已采纳
1
回答
Spark
默认
分区
数
如果我通过
spark
文本文件API加载一个csv文件,我
的
RDD是
分区
的
吗?如果有,电话号码是多少?有人可以解释一下Apache
Spark
中
默认并行
的
含义。
浏览 2
提问于2015-11-30
得票数 0
1
回答
Spark
Partition数据集(按列值)
、
、
、
(我们知道
如何
组合shard S+update= new shard S) 如果这就是我们
的
设计,我们需要(1)通过它
的
一列(比如:列K)将
DataFrame
分片到|range(K)|
分区
中
,其中保证
分区
中
的
所有行在列这是一个好
的
设计,还是
Spark
提供了一些开箱即用
的
东西,让我们
的
任务变得更容易? 我们应该
使用
哪个
Spark
类
浏览 19
提问于2019-05-03
得票数 2
回答已采纳
1
回答
spark
如何
将训练任务均匀地分配给执行者?
、
我已经设置了一个包含4个worker(每个有4个核心)和1个master
的
spark
独立集群。每台都有Windows10操作系统。我向我们
的
spark
独立集群提交了
spark
的
ML示例: multilayer_perceptron_classification.py。但它是将所有任务都交给一个执行者
在
一个worker上执行。enter image description here 火花代码是(代码
使用
multilayer_perceptron_clas
浏览 33
提问于2019-02-26
得票数 0
回答已采纳
1
回答
在
每次作业
中
查找
Cassandra
中
1.5亿条记录
中
的
大约40k条记录?
、
我正在构建一个接近实时/微批处理
的
数据应用程序,
使用
Cassandra作为
查找
存储。每次增量运行有大约40K条记录,而Cassandra表有大约1.5亿条记录。
在
每次运行
中
,我需要
查找
id字段并从Cassandra获取一些属性。这些
查找
可以是随机
的
(不是任何时间/地区/国家
的
依赖),因此没有明确
的
分区
方案。我应该
如何
对Cassandra表进行
分
浏览 19
提问于2019-09-19
得票数 0
1
回答
星火是否在内部节点间分发数据?
、
、
我正在尝试
使用
Spark
处理集群上
的
csv文件。我想了解是否需要显式读取每个工作节点上
的
文件来并行处理,还是驱动节点读取文件并在集群中分发数据以便内部处理?(我正在
使用
Spark
2.3.2和
Python
)
浏览 0
提问于2019-04-03
得票数 5
2
回答
从
Python
列表
中
向PySpark
DataFrame
添加一个新列
、
、
、
我有一份清单:我试图将它添加到
的
数据文件长度相同(没有问题)。
浏览 13
提问于2019-11-13
得票数 4
回答已采纳
1
回答
是什么决定了
Spark
中
操作
的
映射器和减法器
的
数量
我正在阅读,这篇文章谈到了基于映射器和reducers任务
的
数量
生成
的
文件
数量
。你能帮帮我吗。
浏览 2
提问于2018-11-16
得票数 0
1
回答
火花
DataFrame
再划分与Parquet划分
、
我正在
使用
重新
分区
的
列,以存储数据
在
拼花。但我看到了不。分割后
的
文件与否文件不相同。Rdd
分区
。rdd
分区
和拼板
分区
之间没有关联吗?当我将数据写入parquet
分区
并
使用
Rdd重新
分区
,然后从parquet
分区
读取数据时,rdd
分区
号在读/写过程
中
是否存在相同
的
条件?
如何
使用
列id对
浏览 2
提问于2018-09-26
得票数 13
回答已采纳
2
回答
星火知道
DataFrame
的
分区
键吗?
、
、
我想知道星火是否知道分割键
的
地板文件,并
使用
这些信息,以避免洗牌。运行
Spark
2.0.1运行本地SparkSession。之后,
在
另一个脚本
中
,我读取了这个SomeFile.parquet拼板文件,并对其进行了一些操作。如果它不知道,我
如何
告诉斯派克数据已经被正确
的
列
分区
了?
如何
检查
DataFrame
的
分区
键?这有命令吗?我知道
如何
检查
浏览 0
提问于2018-01-26
得票数 21
回答已采纳
1
回答
Spark
Data Source是否支持对写入
的
输入V2进行重新
分区
?
我有一个自定义
的
Spark
数据源,它是
使用
data source实现
的
,我正在尝试将其转换为V2 V1。
在
Spark
API
中
,V1将输入
DataFrame
传递给CreatableRelationProvider
的
createRelation方法 https://
spark
.apache.org/docs/latest/api/java/org
浏览 41
提问于2021-05-08
得票数 0
1
回答
在
spark
-submit命令
中
,是否存在用于控制并行级别的标志
、
、
、
、
在
Apache
Spark
中
,对于"
Spark
-submit“命令,是否存在一个”标志“来控制并行级别。
浏览 0
提问于2016-08-27
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Python查找目录中的重复文件
Python 中的变量如何定义和使用
如何优雅地使用Python中的代码注释
Kafka创建Topic时如何将分区放置到不同的Broker中
在Python中如何使用列表推导式来创建一个列表
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券