腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
如何使用
Spark
Streaming更新
拼图
文件?
apache-spark
、
spark-streaming
、
parquet
我正在使用
spark
streaming来创建实时数据管道。我正在从Kafka获取实时数据,并使用
Spark
处理这些数据。 但是当我用来自
S3
的
新数据更新
S3
上现有的
拼图
文件时,它
的
性能就不好了。因为我必须从
S3
中
获取现有的
分区
拼图
文件,并用来自Kafka
的
新记录替换旧记录,然后在
S3
上覆盖完整
的
分区
拼图
文件。
浏览 18
提问于2019-11-03
得票数 0
2
回答
Avro
Spark
->镶嵌->
apache-spark
、
apache-spark-sql
、
avro
、
parquet
我有一个java程序,它使用AvroParquetWriter来创建
拼图
文件。 我可以把这些文件放到亚马逊(
S3
)网站上。完成此操作后,我想创建一个外部表,以使用
Spark
SQL
查询
拼图
记录。 这个是可能
的
吗?我尝试过
的
所有实验都表明,
Spark
在
查询
时
无法
读取AvroParquetWriter创建
的
文件。
浏览 22
提问于2019-05-08
得票数 0
回答已采纳
2
回答
spark
sql
无法
查询
S3
中
的
拼图
分区
amazon-s3
、
apache-spark-sql
、
parquet
我在AWS
s3
中
有100个parquet_dir/*.snappy.parket文件作为
分区
。文件大小为6 6GB。我
无法
查询
这些
分区
文件。当读取在HDFS
中
写入
的
相同
分区
文件时,相同
的
查询
成功。val DF =
spark
.read.parquet("s3a:/parquet_dir").cache() DF.registerTempT
浏览 135
提问于2020-04-21
得票数 0
2
回答
无法
使用pyarrow从目录
中
读取
拼图
文件
python-3.x
、
pyarrow
我使用pyarrow(0.12.1)从
s3
读取
拼图
对象
s3
= s3fs.S3FileSystem()尝试创建ParquetDataset时出现以下错误: "
浏览 22
提问于2019-11-09
得票数 1
1
回答
查询
整个配置单元外部表
中
未
分区
的
列
apache-spark
、
hive
、
apache-spark-sql
、
hiveql
、
dremio
我有hive外部表(以
拼图
格式存储
的
s3
文件),用
spark
创建,大小约为30 GB,具有数百个
分区
。但是,我需要
查询
非
分区
列(比如SUPPLIER_ID)上
的
数据,以查看完整
的
事务历史记录,而不是特定于某个期间或日期(
分区
列)。在不确定Hive表上
的
哪个
分区
数据属于哪个
分区
的
情况下,如何确保这种
查询
模式?
浏览 3
提问于2021-06-09
得票数 0
1
回答
s3
parquet写入-
分区
太多,写入缓慢
scala
、
apache-spark
、
amazon-s3
、
amazon-emr
、
parquet
我有我
的
scala
spark
作业要作为
拼图
文件写入到
s3
中
。到目前为止,它有60亿条记录,而且还会每天都在增长。根据用例,我们
的
api会根据id
查询
拼图
。因此,为了使
查询
结果更快,我在id上编写了带有
分区
的
拼图
。然而,我们有1330360个唯一
的
is,所以这是在写
的
同时创建了1330360个
拼图
文件,所以写
的
浏览 2
提问于2018-05-06
得票数 1
2
回答
Spark
正在忽略配置单元表格
的
按键设置
apache-spark
我正在
S3
上处理一个1TB大小
的
数据集。数据在
拼图
文件
中
。执行以下代码后,在每个
分区
中
创建了许多文件,但没有正确
的
数字(6)。import org.apache.
spark
.
sql
.SaveMode
spark
.sqlContext.
sql
("use db")dates.foreach { date =>
浏览 1
提问于2018-08-20
得票数 0
2
回答
如何优化
Spark
向
S3
写入大量数据
scala
、
apache-spark
、
amazon-s3
、
amazon-emr
基本上,我使用了大约1TB
的
拼图
数据-分散在
S3
中
的
数万个文件
中
-添加了一些列,并按数据
的
日期属性之一将其
分区
输出-同样,以
S3
格式
的
拼图
。=5120 --conf
spark
.executor.memoryOverhead=5120 --conf
spark
.driver.maxResultSize=2g --conf
spark
.
浏览 0
提问于2020-01-07
得票数 5
1
回答
手工选择镶木地板
分区
与在pyspark
中
过滤它们
pyspark
、
parquet
、
hadoop-partitioning
这可能是一个愚蠢
的
问题,但手动指定
拼图
文件
中
的
分区
列与加载并过滤它们有什么不同吗? 例如:我有一个由DATE
分区
的
拼图
文件。如果我想要最后10天,我通常可以这样做:(假设今天是2020-10-26) df=
spark
.read.parquet("
s3
://bucket/path/file.parquet")\ .filter(col('DATE
浏览 11
提问于2020-10-26
得票数 0
回答已采纳
2
回答
如何在
spark
中
启用
分区
修剪
apache-spark
、
apache-spark-sql
、
spark-dataframe
、
pruning
我正在读取
拼图
数据,并且我看到它列出了驱动程序端
的
所有目录Listing
s3
://xxxx/defloc/warehouse/products_parquet_151/month=2014-12 on driver 我在where子句中指定了我尝
浏览 1
提问于2016-10-06
得票数 10
3
回答
Spark
是否支持对
拼图
文件进行
分区
修剪
apache-spark
、
amazon-s3
、
hive
、
parquet
如果我使用以下
Spark
命令:sqlContext.setConf("
spark
.
sql
.parquet.filterPushdown", "true") val df = sqlContext.
sql
("select * from tag_data whe
浏览 2
提问于2016-05-12
得票数 19
1
回答
显示
Spark
+Parquet程序
中
读取
的
字节数
apache-spark
、
query-optimization
、
parquet
我正试图通过利用
分区
和下推来优化一些
Spark
查询
和一个Parquet模式。我
的
理解是,这些技术允许跳过大部分
的
拼图
文件。 有没有办法显示
Spark
读取
的
字节数与Parquet文件
的
总大小之间
的
关系?另外,读操作
的
数量是多少?(我使用
的
是
S3
,因此我希望最小化由于
S3
应用程序接口调用
的
开销而导致
的
读取操作<em
浏览 0
提问于2019-03-14
得票数 0
5
回答
需要更少
的
拼花面板文件
apache-spark
、
dataframe
、
rdd
、
partition
、
bigdata
我正在进行以下过程然而,在每个
分区
下,有太多
的
拼图
文件,而且每个文件
的
大小都很小,这会使我下面的步骤加载所有的
拼图
文件变得非常慢。有没有更好
的
方法,在每个
分区
下,创建更少
的
拼图
文件,并增加单个
拼图
文件
的
大小?
浏览 6
提问于2016-08-31
得票数 2
1
回答
DynamoDB与
S3
平面文件?
amazon-s3
、
amazon-dynamodb
、
parquet
、
bigdata
、
nosql
我正在存储数am
的
点击流类型
的
用户事件数据。它需要按日期进行索引或
分区
,以便可以合理地快速
查询
较窄
的
日期范围。我希望能够对此运行聚合作业和
查询
。我希望在Amazon EMR或类似的东西中使用
Spark
。一种选择是按day+hour
分区
的
S3
平面文件,如下所示:
s3
:
浏览 0
提问于2016-05-24
得票数 3
1
回答
最佳文件大小和拼花块大小
apache-spark
、
amazon-s3
、
parquet
我每天有大约100 GB
的
数据,我用
Spark
写到
S3
。书写格式是拼花。编写此运行
Spark
2.3
的
应用程序我们计划在
Spark
2.4
中
迁移整个数据并重写到
S3
。最初,我们在编写
S3
时没有决定文件大小和块大小。现在我们要重写所有内容,我们希
浏览 0
提问于2019-05-23
得票数 9
2
回答
关于使用parquet处理时间序列数据
的
问题
apache-spark
、
time-series
、
parquet
目前,我正在为每个传感器编写CSV文件,并按日期进行
分区
,因此我
的
文件系统层次结构如下所示:我
的
目标是能够对这些数据执行
SQL
我现在正在尝试使用
Spark
和Parquet文件来执行这些
查询
,但我在这个主题上
的
研究中有一些问题
无法
回答,即:client_id/sen
浏览 1
提问于2019-07-28
得票数 2
1
回答
在
Spark
中
通过合并减少
分区
apache-spark
、
apache-spark-sql
我运行
Spark
查询
并使用它们执行数据转换,然后将最终
的
结果集(在一系列转换步骤之后)存储到
S3
。我最近注意到,我
的
工作之一是在编写
S3
时创建大量
分区
文件,并且需要很长时间才能完成(实际上是失败
的
)。因此,我想知道是否有任何方法在
SQL
中
执行类似COALESCE
的
函数来在写入
S3
之前减少
分区
的
数量? 我知道
SQL
等效于重新<em
浏览 3
提问于2021-03-30
得票数 0
1
回答
针对缓存表
的
Spark
SQL
分区
修剪
caching
、
apache-spark
、
partition
、
pruning
、
hivecontext
在apache
spark
中
是否为缓存
的
TempTables启用
分区
修剪?如果是,我该如何配置它?val parquet = hc.read.parquet("/path_to_table/tablename") parquet.reg
浏览 21
提问于2017-02-10
得票数 0
1
回答
如何加载没有
分区
名
的
分区
拼图
数据集(在目录名
中
)?
apache-spark
、
pyspark
、
apache-spark-sql
我有一个
拼图
格式
的
文件列表 --
s3
:\\my-bucket\files\14\09\12\file.pq# 14如果我将绝对路径传递给我
的
spark
上下文,它可以读取文件而不会出现任何问题
spark
.read.parquet('
s3
:\\my-bucket\files\14\09\12\file.pq') 如果我通过了
spark</em
浏览 17
提问于2021-09-14
得票数 1
回答已采纳
5
回答
spark
读取
S3
中
的
分区
数据部分在冰川
中
apache-spark
、
amazon-s3
、
partitioning
、
amazon-glacier
我在
S3
的
拼图
中有一个按日期(dt)
分区
的
数据集,其中最旧
的
日期存储在AWS Glacier
中
,以节省一些钱。例如,我们有..。2017-08-24"val X =
spark
.read.parquet(path).where(col("dt").; Status
浏览 4
提问于2017-08-21
得票数 7
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
朴朴基于AWS EMR的数据沙盒平台演变
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
Spark SQL在字节跳动数据仓库领域的优化实践
Spark SQL,DataFrames 以及 Datasets 编程指南
Spark Streaming如何读Kafka数据 Hbase如何设计表
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券