腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(6287)
视频
沙龙
1
回答
Spark
如何
使用
order
加载
有序
拼接
的
分区
文件
?
apache-spark
、
apache-spark-sql
、
pyspark-sql
在对所有条目进行排序并对S3
使用
write()函数后,我希望以完全相同
的
顺序和相同
的
分区
重新
加载
数据。 我尝试
使用
read()和load()函数,但这些都不起作用。我们有没有办法
加载
具有相同顺序和
分区
的
已
分区
拼图
文件
?
浏览 18
提问于2019-05-31
得票数 0
1
回答
PySpark -合并(1)是否保留范围
分区
的
顺序?
pyspark
、
bigdata
、
sql-order-by
、
partitioning
、
coalesce
通过查看
Spark
和物理计划,我发现orderBy是由Exchange rangepartitioning(col#0000 ACS NULLS FIRST, 200)和Sort [col#0000 ACSNULLS FIRST], true, 0完成
的
。据我所知,rangepartitioning将为每个
分区
定义最小值和最大值,并将包含最小和最大列值
的
数据排序到该
分区
,以实现全局排序。 但是现在我有200个
分区
,我想要输出到一个csv
文件
。然而,我不知道这是否只是纯粹
浏览 4
提问于2021-09-30
得票数 0
1
回答
使用
Spark
和Alluxio管理S3
的
文件
大小
apache-spark
、
amazon-s3
、
hive
、
alluxio
我
使用
Spark
在Alluxio中写入数据,
使用
UFS作为S3,
使用
Hive
拼接
分区
表。我在Alluxio中
使用
配置单元
分区
字段上
的
重
分区
函数来提高写操作
的
效率。这会导致在Alluxio中创建单个
文件
,即在S3中为
分区
组合创建单个对象。虽然Alluxio具有
使用
S3
的
偏移量以字节为单位读取数据
的
功能,但最终它会
浏览 8
提问于2019-07-02
得票数 1
2
回答
spark
写入拼花面板
文件
。
如何
指定行组大小?
apache-spark
、
pyspark
、
parquet
、
fastparquet
我正在努力寻找
如何
在
Spark
API中指定拼图
文件
写入器
的
行组大小。我发现有一种方法可以做到这一点,那就是
使用
具有此选项
的
快速
拼接
python模块:write具有参数: row_group_offsets 另外,row_group大小
的
最佳数量是多少例如,选择100万
的
row_groupsize比选择10000快10倍。但是如果我选择了超过一百万,它就会开始减慢我
的
简单查询。
浏览 5
提问于2017-10-25
得票数 1
0
回答
设置dask中拼图输出
文件
的
大小
python
、
parquet
、
filesize
、
dask
当
使用
dask dataframe to_parquet方法时,有没有办法像
spark
那样设置默认
拼接
文件
大小?我
的
问题是,当我用partition_on kwarg保存它时,我得到了几个小
文件
,每个
分区
目录,因此导致非常慢
的
查询
使用
“亚马逊雅典娜”。中间期望
的
结果(如果
文件
大小控制不可用)是每个
分区
目录
的
n
文件
(现在1就足够了)。我认为保证每个
浏览 5
提问于2018-07-09
得票数 2
2
回答
配置单元
分区
表上
的
spark
行为
apache-spark
、
hive
、
partitioning
我
使用
Spark
2。我们将hive表划分为2000个
分区
,并以
拼接
格式存储。当在
spark
中
使用
这个表时,在executors中恰好有2000个任务被执行。但是我们有一个256MB
的
块大小,我们期望(总大小/ 256 )
分区
的
数量肯定会比2000小得多。
spark
是否有任何内部逻辑
使用</em
浏览 1
提问于2018-04-05
得票数 2
1
回答
如何
告诉星火根据范围跳过
分区
sql
、
apache-spark
、
pyspark
、
apache-spark-sql
、
bigdata
假设我在S3中存储了100个
文件
,属于一个表,我想
使用
Spark
查询该表。假设表中有一个timestamp列和一些其他列。时间戳是单调增加
的
,因此每个
分区
中
的
时间戳是
有序
的
,而在所有后续
分区
中则小于所有时间戳。现在,我想对这些
文件
进行查询,其中有谓词timestamp between t1 and t2或timestamp > t1,其中t1可能是这100个
分区
中间
的
时间戳。
浏览 3
提问于2021-02-12
得票数 1
2
回答
将新数据追加到已
分区
的
拼图
文件
scala
、
apache-spark
、
append
、
parquet
我正在编写一个ETL进程,我需要每小时读取一次日志
文件
,对数据进行
分区
,然后保存它。我正在
使用
Spark
(在Databricks中)。日志
文件
是CSV,所以我读取它们并应用模式,然后执行转换。我
的
问题是,
如何
将每个小时
的
数据保存为拼图格式,并附加到现有的数据集?保存时,我需要按数据帧中存在
的
4列进行
分区
。如果目标不存在,那么我不会附加我
的
文件
。 我尝试过
使用
.m
浏览 0
提问于2016-01-22
得票数 18
2
回答
加载
拼板
文件
并保持相同数量
的
hdfs
分区
apache-spark
、
hadoop
、
pyspark
、
apache-spark-sql
、
parquet
我在hdfs中保存了一个带有120个
分区
的
拼花
文件
/df。hdfs上每个
分区
的
大小约为43.5M。
Spark
中,并保持相同数量
的
分区
。但是,
Spark
将自动将
文件
加载
到60个
分区
中。_jsc.hadoopConfiguration().get("dfs.blocksize"))/2**20128 将这些值中
的
任何一个
浏览 0
提问于2019-06-14
得票数 0
2
回答
Spark
和RDD
分区
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-streaming
与
spark
一样,我们可以直接从HDFS
加载
数据,RDD
的
分区
数量将等于
文件
的
分区
数量。HDFS以保存重复
的
文件
块而闻名,因此问题是
spark
如何
处理这一问题,以及RDD
分区
是
如何
治理
的
。
浏览 0
提问于2016-01-11
得票数 0
1
回答
如果有在
加载
阶段拥有'maxRecordsPerFile‘
的
好方法,就会产生火花
scala
、
apache-spark
、
partitioning
我已经按存储在s3上
的
空间列(四键)数据进行了
分区
。假设将150个
分区
中
的
5000个
文件
加载
到我
的
spark
应用程序中时,我希望将数据分解为15,000个
分区
,但我希望保留已存在
的
分区
。例如,通常我现在每个
分区
有200mb,所以我想将这些
分区
分解到50mb,对于已经少于50mb
的
分区
,我希望保持原样。当然,这方面有很多工作要做,
浏览 48
提问于2020-03-25
得票数 1
2
回答
关于
使用
parquet处理时间序列数据
的
问题
apache-spark
、
time-series
、
parquet
目前,我正在为每个传感器编写CSV
文件
,并按日期进行
分区
,因此我
的
文件
系统层次结构如下所示:我
的
目标是能够对这些数据执行SQL我现在正在尝试
使用
Spark
和Parquet
文件
来执行这些查询,但我在这个主题上
的
研究中有一些问题无法回答,即: 我正在将此数据转换为
拼接
文件
,因此我现在拥
浏览 1
提问于2019-07-28
得票数 2
3
回答
Spark
是否支持对拼图
文件
进行
分区
修剪
apache-spark
、
amazon-s3
、
hive
、
parquet
第二个tag_id - tag_id有200000个唯一值,我主要通过特定
的
partition值访问数据。如果我
使用
以下
Spark
命令:sqlContext.setConf='PLANT01' and tag_id='1000'") 我希望得到一个快速响应,因为它解析到单个
分区</em
浏览 2
提问于2016-05-12
得票数 19
2
回答
无法
使用
pyarrow从目录中读取拼图
文件
python-3.x
、
pyarrow
我
使用
pyarrow(0.12.1)从s3读取拼图对象s3 = s3fs.S3FileSystem()当我将一个
文件
的
浏览 22
提问于2019-11-09
得票数 1
1
回答
手工选择镶木地板
分区
与在pyspark中过滤它们
pyspark
、
parquet
、
hadoop-partitioning
这可能是一个愚蠢
的
问题,但手动指定拼图
文件
中
的
分区
列与
加载
并过滤它们有什么不同吗? 例如:我有一个由DATE
分区
的
拼图
文件
。如果我想要最后10天,我通常可以这样做:(假设今天是2020-10-26) df=
spark
.read.parquet("s3://bucket/path/file.parquet")\ .filter(col('DATE')>
浏览 11
提问于2020-10-26
得票数 0
回答已采纳
4
回答
spark
.sql.shuffle.partitions
的
最佳值应该是什么,或者在
使用
Spark
时
如何
增加
分区
?
apache-spark
、
apache-spark-sql
我
使用
的
是
Spark
,实际上是hiveContext.sql(),它
使用
group查询,并且遇到OOM问题。因此,考虑将
spark
.sql.shuffle.partitions
的
价值从200个默认增加到1000个,但这并没有帮助。 我相信这个
分区
会共享数据洗牌负载,所以
分区
越多,容纳
的
数据就越少。我是星火
的
新手。我
使用
的
是
Spark
1.4.0,我有大约1TB<em
浏览 13
提问于2015-09-02
得票数 40
回答已采纳
1
回答
Azure数据工程师助理证书-准备,Microsoft学习平台
azure
、
certificate
是否有人尝试通过Microsoft
的
在线培训来准备Azure数据工程师助理证书?我关心
的
是一个拟议
的
培训和技能大纲
文件
的
范围。我在该文档中看到
的
一件事(可能还有更多)是关于Databricks
的
问题,并且在在线培训中没有针对Databricks
的
模块。那么,这条学习路径是否足以通过考试(DP-200、DP-201)?对其他免费在线学习课程
的
任何建议。 学习路径:
浏览 2
提问于2020-04-10
得票数 0
3
回答
当一个
文件
从S3桶
加载
时,
Spark
创建了多少个
分区
?
apache-spark
、
hadoop
、
amazon-s3
、
rdd
如果
文件
是从HDFS
加载
的
,默认情况下,
spark
会为每个块创建一个
分区
。但是,在从S3桶
加载
文件
时,S3
如何
决定
分区
呢?
浏览 7
提问于2016-05-11
得票数 13
回答已采纳
2
回答
Apache不
使用
来自Hive
分区
外部表
的
分区
信息
apache-spark
、
hive
、
apache-spark-sql
我有一个简单
的
Hive外部表,它是在S3之上创建
的
(
文件
是CSV格式
的
)。当我运行hive查询时,它会显示所有记录和
分区
。但是,当我在
Spark
中
使用
相同
的
表时(
Spark
在
分区
列上有一个where条件),它不会显示应用了
分区
筛选器。然而,对于Hive托管表,
Spark
可以
使用
分区
信息并应用
分区
筛选器。是否有任何标志或设置可以
浏览 0
提问于2019-08-24
得票数 3
1
回答
星星之火wholeTextFiles():java.lang.OutOfMemoryError: Java堆空间
apache-spark
、
jvm
、
out-of-memory
、
apache-spark-sql
我正在
使用
spark
.wholeTextFiles()处理一个400‘m
的
文件
,并不断地摆脱内存错误。我首先在一个
文件
文件
夹中
使用
了这个API,该
文件
夹总共有40 my,我想知道我
的
代码是否适用于大
文件
,这就是大
文件
的
来源。size sql将把
文件
夹
加载
到
分区
,
分区
的
大小可以用
spa
浏览 1
提问于2017-10-21
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark SQL join的三种实现方式
【大数据】Spark算子之SortByKey
大数据有道之spark选择去重
大数据有道之spark筛选去重
Spark如何读取一些大数据集到本地机器上
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券