腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
控制
Spark
SQL
查询
的
输出
文件
数量
?
、
、
从
Spark
SQL
SELECT创建一个表,最终会生成太多
的
文件
。我们
如何
限制它们呢?
浏览 137
提问于2020-01-08
得票数 0
回答已采纳
1
回答
浏览我需要将它们组合到一个
文件
中
的
小拼图
文件
我有
Spark
SQL
查询
,通过几个小
的
拼图
文件
(大约2M)。 我有
Spark
块大小为256M,所以我想将这些小
文件
组合成一个(或更多)大小为256M
的
文件
。我正在考虑
的
是找到数据帧大小并将其除以256M,这样我就知道有多少
文件
将是他们
的
,但不幸
的
是
Spark
不支持查找数据帧大小,因为它是分布式
的
。我正在考虑将数据帧转换为数据集
浏览 15
提问于2019-06-19
得票数 0
回答已采纳
2
回答
如何
控制
在
spark
中设置大分区时生成
的
文件
数?
、
、
由于输入数据
的
数量
很大,我设置了
spark
(
spark
.
sql
.shuffle.partitions=1000)
的
大洗牌分区。但是,
输出
文件
很小(~1GB),但是它会创建大量
的
小
文件
(3000个
文件
,每个
文件
小于1Mb)。
如何
将这些小
文件
组合成一个大
文件
? 另一个问题是,为什么
输出
文件
<em
浏览 24
提问于2021-12-14
得票数 1
2
回答
如何
合并sparksql保存在hive上
的
小
文件
?
、
配置单元
的
输出
hdfs
文件
包含太多小
文件
。
如何
在保存到配置单元时合并它们?myDf.write.format("orc").partitionBy("datestr").insertInto("myHiveTable") 当有100个任务时,它将产生100个小
文件
。sqlContext.
sql
("set hive.merge.mapfiles=true") sqlContext.<e
浏览 11
提问于2016-08-29
得票数 1
2
回答
spark
.
sql
.files.maxPartitionBytes不限制写入分区
的
最大大小
、
、
我认为默认情况下,
spark
.
sql
.files.maxPartitionBytes应该设置为128 MB,但是当我在复制后查看s3中
的
分区
文件
时,我会看到大约226 MB
的
单个分区
文件
。我看了这篇文章,它建议我设置这个星火配置键,以限制分区
的
最大大小:,但它似乎不起作用吗?读取
文件
时要打包到单个分区
的
最大字节数。此配置仅在使用Parquet、JSON和ORC等基于
文件
浏览 54
提问于2020-06-30
得票数 1
2
回答
空txt
文件
保存在scala中
的
Apache中。
、
、
我有如下所示
的
dataframe (我发布了其中
的
一部分),我需要将它保存在txt
文件
中,但是,我们曾经这样做过,它保存了大量
的
空
文件
,并在日志
文件
中显示了下面的消息。我应该提到,我使用Mac和IntelliJ
的
想法。你能帮我找错地方吗?谢谢。0.17042356512251874| 0.09735462887873032| 5.555555555555555|64.22222222222223| 1|
输出</e
浏览 4
提问于2017-09-13
得票数 0
回答已采纳
1
回答
以拼花格式保存数据
文件
会生成太多
的
小
文件
。
、
、
、
使用
Spark
,我将在一个蜂巢表中保存一个parquet格式
的
星星之火df。问题是,这个操作总是生成大约200个3 MBs
的
部分-*
文件
。
如何
在处理过程中
控制
输出
文件
的
数量
和分区
的
数量
?据我所知,每个分区生成一个部件-*
文件
。 我用
spark
.read.parquet("
浏览 1
提问于2018-03-15
得票数 3
2
回答
如何
控制
从火花DataFrame写入
的
输出
文件
的
数量
?
、
、
、
、
我使用DataFrame来处理数据,稍后我希望将
输出
保存到HDFS
文件
中。问题是使用:生成许多
文件
--有些
文件
很大,有些
文件
甚至是0字节。 有办法
控制
输出
文件
的
数量
吗?另外,为了避免“相反”
的
问题,是否也有办法限制每个
文件
的
大小,以便在当前达到某
浏览 1
提问于2018-06-05
得票数 4
回答已采纳
1
回答
不使用动作
的
Spark
基准测试
、
我试图通过对一个Hive表运行一个简单
的
查询
来比较
Spark
和hive
的
性能,例如:
spark
.
sql
("select * from schema.table where col = 0") 问题是,由于
Spark
的
惰性求值行为,我必须添加一个操作才能使其运行。我想过使用.count()来强制代码运行,但我担心它会改变应用程序运行
的
方式,并与Hive进行错误
的
比较,因为每个任务不仅会进行过滤,而
浏览 23
提问于2021-07-26
得票数 0
1
回答
理解星火结构流并行性
、
、
我是星火世界
的
新手,在一些概念上苦苦挣扎。 当使用由Kafka提供
的
Spark
结构化流源时,并行性是
如何
发生
的
?,数据集
的
分区数是基于
spark
.
sql
.shuffle.partitions参数
的
。对于每一批(从卡夫卡拉),被拉
的
项目会被分配到
spark
.
sql
.shuffle.partitions
的
数量
中吗?例如,
spark
.
浏览 3
提问于2018-01-13
得票数 8
回答已采纳
2
回答
加载拼板
文件
并保持相同
数量
的
hdfs分区
、
、
、
、
我在hdfs中保存了一个带有120个分区
的
拼花
文件
/df。hdfs上每个分区
的
大小约为43.5M。
Spark
中,并保持相同
数量
的
分区。但是,
Spark
将自动将
文件
加载到60个分区中。_jsc.hadoopConfiguration().get("dfs.blocksize"))/2**20128 将这些值中
的
任何一个更改为较低
的
值并不会导致将拼花
文件
加
浏览 0
提问于2019-06-14
得票数 0
1
回答
Spark
如何
确定从Hive表加载数据时将使用
的
分区数?
这个问题与相同 但我认为这个问题没有得到正确
的
答案。请注意,问题是,在使用方法对HIVE表执行
sql
查询
时,当创建dataframe时,将创建多少分区。上面的问题不同于询问在创建数据时将创建多少分区,这是执行一些代码
的
结果,比如
spark
.read.json("examples/src/main/resources/people.json")直接从
文件
系统加载数据我认为后一个问题
的
答案是由给出
的</em
浏览 4
提问于2017-05-19
得票数 17
回答已采纳
1
回答
是什么决定了
Spark
中操作
的
映射器和减法器
的
数量
我正在阅读,这篇文章谈到了基于映射器和reducers任务
的
数量
生成
的
文件
数量
。你能帮帮我吗。
浏览 2
提问于2018-11-16
得票数 0
1
回答
如何
在不改变
spark
代码
的
情况下减少分区
数量
、
、
、
我有一个代码压缩
文件
,通过
spark
提交执行,它产生200个
输出
文件
,现在
的
问题是,在没有更改为压缩
文件
的
情况下,
如何
减少
输出
文件
的
数量
?
浏览 2
提问于2020-07-29
得票数 0
1
回答
更改源
的
火花Dataframe.cache()行为
、
、
、
、
使用TTL集将
输出
数据写入cassandra,以便在短时间(2s)后删除所有修改
的
记录。 2a) outputDataframe.cache() 这确保了在第5步中,cassandra不会被
查询
,并且我
浏览 0
提问于2018-10-17
得票数 2
回答已采纳
5
回答
需要更少
的
拼花面板
文件
、
、
、
、
我正在进行以下过程然而,在每个分区下,有太多
的
拼图
文件
,而且每个
文件
的
大小都很小,这会使我下面的步骤加载所有的拼图
文件
变得非常慢。有没有更好
的
方法,在每个分区下,创建更少
的
拼图
文件
,并增加单个拼图
文件
的
大小?
浏览 6
提问于2016-08-31
得票数 2
1
回答
在
Spark
上执行多个
SQL
查询
、
、
我在
文件
test.
sql
中有一个
Spark
查询
-
spark
.
sql
(
sql
).showorg.apache.
spark
.
sql
.catalyst.parse
浏览 0
提问于2018-03-10
得票数 0
回答已采纳
1
回答
火花加载1.5亿条记录进入MySQL需要2-3小时
、
、
、
写入表
的
时间为2-3小时(取决于DB
的
使用情况)。我试着做批次 val db_url_2 = "jdbc:mysql://name.amazonaws.com:port/db_name?
浏览 1
提问于2018-10-15
得票数 1
2
回答
如何
控制
Spark
job在写入时创建
的
输出
部品
文件
的
数量
?
、
、
、
我有几个
Spark
作业,每天处理数千个
文件
。
文件
大小可能从MB到GB不等。/path/in/hdfs"); OR
Spark
job在最终
输出
目录中创建了大量
的
小零件
浏览 4
提问于2015-07-06
得票数 2
回答已采纳
1
回答
从
Spark
SQL
(java)中
的
数据集中获取JSON
、
、
我有一个运行在服务器上
的
Spark
SQL
应用程序。它从.parquet
文件
中获取数据,并在每个请求中对这些数据执行
SQL
查询
。我需要在响应中发送与
查询
输出
相对应
的
JSON。这就是我要做
的
sqlDF.show(); 所以我知道这个
查询
是有效
的
。我尝试将sq
浏览 2
提问于2017-08-13
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何由 Power BI 直接查询数据集捕获生成的 SQL 查询
如何统计 Linux 中文件和文件夹/目录的数量
在Oracle中,如何备份控制文件?备份控制文件的方式有哪几种?
数据分析面经分享|SQL如何查询用户的最长连续活跃天数?
要提高SQL查询效率where语句条件的先后次序应如何写
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券