腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
为什么
Spark
中
的
重
分区
比
partitionBy
快
?
apache-spark
、
pyspark
、
apache-spark-sql
、
apache-spark-xml
我尝试将
Spark
用于一个非常简单
的
用例:给定一个包含数百万设备组
的
设备时间序列数据
的
大型文件集(90k),将给定设备
的
所有时间序列读取都放入一组文件(
分区
)
中
。现在,假设我们
的
目标是100个
分区
,给定
的
设备数据显示在相同
的
输出文件
中
并不重要,只是相同
的
分区
。其中任何一个
的
代码都非常简单: repartition (添加哈希列以
浏览 146
提问于2021-11-15
得票数 6
回答已采纳
2
回答
Spark
是否在read上维护拼花地板
分区
?
scala
、
apache-spark
、
partitioning
、
parquet
我很难找到这个问题
的
答案。假设我向parquet编写了一个数据帧,并结合使用repartition和
partitionBy
来获得一个
分区
良好
的
parquet文件。如下所示:现在,稍后我想要读取拼图文件,所以我这样做: val df =
浏览 5
提问于2018-06-13
得票数 15
1
回答
pyspark在输出
中
写入许多较小
的
文件
amazon-s3
、
pyspark
、
amazon-athena
我已经在athena
中
创建了一个表,它将用于查询此数据。df = sparkSess.createDataFrame(deltaRdd, schema)
浏览 5
提问于2019-12-16
得票数 2
2
回答
在
Spark
中使用reduceByKey时,有没有有效
的
分区
方法?
apache-spark
、
rdd
、
partitioning
当我使用reduceByKey或aggregateByKey时,我会遇到
分区
问题。例如,reduceBykey(_+_).map(code)因此,作为解决方案,我使用了repartition方法。这对于
分区
分发是有好处
的
,但是repartition也很昂贵。 有没有办法明智地解决
分区
问题?
浏览 1
提问于2017-03-26
得票数 5
1
回答
Spark
Dynamic Partition overwrite on multiple columns生成空白输出
apache-spark
、
pyspark
、
apache-spark-sql
我在HDP 2.6.5集群和hadoop 2.7.5上使用
spark
2.3.0。今天晚上我遇到了一个问题。我在我
的
一个验证脚本中使用了下面的动态
分区
覆盖。DF.coalesce(1).write.
partitionBy
("run_date","dataset_name").mode("overwrite").csv("/target/path") 但是它只用我在
spark
会话
中
设置了以下
浏览 19
提问于2020-09-10
得票数 0
1
回答
使用少量大
分区
的
repartionBy
的
最佳策略
scala
、
performance
、
apache-spark
、
partitioning
我必须按四键对地理数据进行重新
分区
。首先,所有数据都是相当平衡
的
,但很少有
分区
比
其他
分区
大500倍。因此,它导致了非常不平衡
的
分区
阶段,比如3500个任务中有20-30个任务
比
其他任务慢98%。在这种情况下有什么好
的
策略吗?我需要做
的
下一步是: stage.repartition(partitionColumns.map(new org.apache.
spark
.sql.Column(_)):_*)
浏览 0
提问于2018-06-29
得票数 0
1
回答
火花s3写入(s3与s3a连接器)
amazon-web-services
、
apache-spark
、
amazon-s3
、
parquet
、
amazon-emr
我正在处理一个运行在EMR上
的
作业,它在s3上节省了数千个
分区
。
分区
是年/月/日。 我有过去50年
的
数据。现在,当
spark
写入10000个
分区
时,使用s3a连接大约需要1小时。它非常慢。df.repartition($"year", $"month", $"day").write.mode("append").
partitionBy
("year",
浏览 1
提问于2021-11-16
得票数 2
1
回答
spark
数据集覆盖在
spark
2.4
中
无法工作
的
特定
分区
scala
、
apache-spark
、
hive
、
apache-spark-sql
在我
的
工作
中
,最后一步是将执行
的
数据存储在Hive表
中
,并在"date“列上进行
分区
。有时,由于作业失败,我需要单独为特定
分区
重新运行作业。正如所观察到
的
,当我使用下面的代码时,
spark
在使用覆盖模式时覆盖了所有
分区
。,我按照以下步骤仅覆盖了特定
的
分区
。根据这篇博客,,"insertinto“应该只覆盖特定
的
分区
如果我先创建表,然后使用&q
浏览 1
提问于2020-03-18
得票数 1
1
回答
星火中
的
默认
分区
方案
apache-spark
、
rdd
、
partitioning
当我执行以下命令时:rdd: org.apache.
spark
.rdd.RDD[(Int, Int)] = ShuffledRDD[10] at
partitionBy
at <console= org.apache.
spark
.HashPartitioner@a 它说有10个
分区
,
浏览 1
提问于2015-12-28
得票数 20
回答已采纳
1
回答
将
Spark
dataframe写入为带
分区
的
CSV
csv
、
apache-spark
、
apache-spark-sql
、
partitioning
我正在尝试将
spark
中
的
数据帧写入到HDFS位置,并且我希望如果添加
partitionBy
符号,
Spark
将创建以下形式
的
分区
文件夹(类似于以Parquet格式编写)(df.write .mode('overwrite') .format("com
浏览 2
提问于2016-05-29
得票数 11
回答已采纳
1
回答
文件写入
的
火花
分区
非常慢。
hadoop
、
apache-spark
、
hdfs
、
parquet
、
hadoop-partitioning
当使用
Spark
向HDFS写入文件时,当不使用
分区
时,这是相当
快
的
。相反,当我使用
分区
写入文件时,写入延迟增加了24因子。你们
中
的
一些人是否有过编写
分区
文件需要很长时间
的
相同经验?造成这种情况<e
浏览 4
提问于2016-04-01
得票数 3
2
回答
Spark
2.1 :如何在DataFrameWriter
partitionBy
中提供多个列
apache-spark
我正在尝试使用
Spark
2.1创建一个包含多个
分区
的
orc文件。我
的
代码看起来像这样:df.write.option("compression", "zlib").
partitionBy
("a, b").orc("s3a://bucket/") 其中a和b是我想要
分区
的
两列我被org.apache.
spark
.sql.AnalysisExce
浏览 21
提问于2017-06-20
得票数 2
回答已采纳
2
回答
当数据存储在对象存储
中
时,从
Spark
SQL访问配置单元表
apache-spark
、
hive
、
object-storage
我使用
spark
dataframe编写器将数据写入IBM Cloud Object Storage
中
的
内部hive表,格式为parquet。因此,我
的
配置单元元存储在HDP集群
中
,我正在从HDP集群运行
spark
作业。此
spark
作业将数据以parquet格式写入IBM COS。,当我对数据进行
分区
并存储(通过
partitionBy
)时,我无法直接从
spark
sql访问数据
spark
.sql(
浏览 40
提问于2018-12-18
得票数 0
1
回答
Spark
2.2.0版本
中
的
OverWrite专用
分区
apache-spark
、
pyspark
、
apache-spark-sql
在
Spark
中
,我希望覆盖特定
的
分区
,而不是所有的
分区
。我正在尝试以下命令:df.write \ .format("csv") \ .
partitionBy
("partit
浏览 15
提问于2022-11-29
得票数 0
1
回答
Spark
中
的
散列
分区
apache-spark
我正在使用
partitionBy
()在
Spark
中进行散列
分区
。但是该应用程序接口在RDD class.But
中
不可用,它显示无法解析在单机上运行
的
partitionBy
() .I am,并且
Spark
核心版本为1.2。import org.apache.
spark
.SparkContext(sparkConf); val testrdd = sparkContext.parallelize[Int](List(1,2,3,4,6,8,4,5,6));
浏览 0
提问于2016-04-05
得票数 0
2
回答
在星火库上列出特定单元表
的
所有
分区
,并添加一个
分区
apache-spark
、
hive
如何向hive表
中
添加新
的
分区
?有什么api
的
蜂巢亚稳态,我可以使用火花? 有没有办法获得映射dataframe row => partition_path
的
内部单元函数?
spark
正在将所有文件放在$HIVE/my_table下而不是$HIVE/my_table/month/...下,这意味着他没有对数据进行
分区
。当我编写df.write.
partitionBy
(...).mode(Overwrite).
浏览 2
提问于2016-10-26
得票数 6
回答已采纳
1
回答
在Databricks
中
复制Delta表后,它
的
写入速度显著提高
sql
、
performance
、
pyspark
、
databricks
、
delta-lake
我正在将一个PySpark数据文件合并到一个Delta表
中
。输出增量按日期进行
分区
。下面的查询需要运行30: "actual",当使用而不是PATH_TO_THE_TABLE时,上面的查询变得
比
PATH_TO_THE_TABLE
快
60倍(即在同一个集群上使用0.5s )。下面是复制增量
的
命令: (
spark
.
浏览 1
提问于2021-12-13
得票数 3
1
回答
spark
dataframe保存为
分区
表
的
速度非常慢
apache-spark
df.write.
partitionBy
("par").format("orc").saveAsTable("mytable") 大家好,当我将
spark
数据帧保存为
分区
的
hive表时,过程非常非常慢,有人知道
为什么
吗?是否有需要调整
的
参数?
浏览 0
提问于2017-09-15
得票数 2
1
回答
如何可靠地写入和恢复
分区
数据
apache-spark
我正在寻找一种方法来写入和恢复
分区
数据集。对于这个问题,我可以接受两个
分区
的
RDD和Dataset[Row] / Dataframe这样做
的
目的是为了在恢复数据时避免混洗例如:
spark
.range(n).withCo
浏览 0
提问于2016-10-06
得票数 2
2
回答
spark
HWC无法写入现有表
scala
、
apache-spark
、
hive
、
save
、
hdp
在HDP 3.1.0
中
,HWC hive-warehouse-connector-assembly-1.0.0.3.1.0.0-78.jar,i不能根据数据库追加(或覆盖)到现有的表。我在一个名为DSN
的
数据库上测试,它工作,但在另一个名为CLEAN_CRYPT
的
数据库上它失败了。两个数据库都是加密
的
+ kerberosimport com.hortonworks.
浏览 2
提问于2020-01-28
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
每天读一本:Spark快速大数据分析
Spark核心编程RDD分区器以及文件读取与保存
Spark从Kafka 读数并发问题
Spark之Lineage机制
第八篇|Spark SQL百万级数据批量读写入MySQL
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券