腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
从
Trino
读取
S3
中
的
数据
分区
amazon-s3
、
hive
、
hive-metastore
、
trino
、
hive-partitions
我正在尝试
从
Trino
读取
S3
中
的
数据
分区
。我到底做了什么: 我将所有
分区
的
数据
上传到
S3
。我有一个指定
的
avro模式,我把它放在文件本地系统
中
。然后,我创建了一个外部配置单元表,以指向
S3
中
的
数据
位置和文件本地系统
中
的
avro schem
浏览 149
提问于2021-01-29
得票数 2
1
回答
使用HUDI在
TRINO
上创建表
的
示例
apache-spark
、
create-table
、
trino
、
apache-hudi
我使用Spark Structured Streaming (3.1.1)
从
Kafka
读取
数据
,并使用HUDI (0.8.0)作为
S3
上
的
存储系统,按日期对
数据
进行
分区
。(本节无问题)我创建了一个具有以下模
浏览 6
提问于2021-12-23
得票数 3
1
回答
如何
在
S3
上创建
分区
的
Trino
表(带有子模块)
presto
、
trino
我
的
s3
位置
的
结构如下
s3
://bucketname/snapshot/db_collection/snapshot/db_collection/级别定义
trino
表;这样,如果我查询一行,并且它存在于2个快照
中
,那么我将得
浏览 5
提问于2022-10-19
得票数 0
2
回答
为什么AWS Athena在目标
S3
位置转储结果时需要'spill-bucket‘
sql
、
amazon-web-services
、
amazon-athena
、
trino
为什么AWS Athena在目标
S3
位置转储结果时需要'spill-bucket‘( format = 'Parquet', ) WITH my_data_2 (SELECT *FROM existing_tablegenerated_data
浏览 0
提问于2021-02-24
得票数 2
1
回答
spark
如何
在幕后
读取
数据
?
apache-spark
、
amazon-s3
、
pyspark
例如,我有点困惑于spark是
如何
从
s3
读取
数据
的
。假设要从
s3
读取
100 GB
的
数据
,而spark集群
的
总内存为30 GB。spark是否会在触发操作后
读取
所有100 GB
的
数据
,并将最大数量
的
分区
存储在内存
中
,并将剩余
的
分区
溢出到磁盘?还是只
读取
浏览 2
提问于2021-09-19
得票数 2
1
回答
部分加载
分区
时,Amazon不返回最近
的
数据
amazon-web-services
、
amazon-s3
、
amazon-athena
我定义了一个
分区
表,它指向使用日期
分区
的
S3
桶。我有过去3个月
的
数据
在
S3
桶里。我已经加载了第一个月
的
分区
。但是,在过去两个月中,我没有使用msck repair table或alter table命令在
分区
中加载
数据
。当我试图查询表时,过去两个月
的
数据
不是
从
S3
加载
的
,只有最新
的
分区
浏览 0
提问于2019-09-28
得票数 2
回答已采纳
1
回答
Spark
如何
创建
从
S3
读取
的
对象
的
分区
?
amazon-web-services
、
apache-spark
、
hadoop
、
amazon-s3
、
aws-glue
Spark
如何
创建
从
S3
读取
的
对象
的
分区
? 我在
S3
中
有一个118MB大小
的
对象。我将对象读入胶水动态框架。转换为spark
数据
帧并应用了一些转换。然后将
数据
写回
S3
。输出文件夹由大小为51MB和39MB
的
两个对象组成。Spark
如何
决定
从
S3
读取
的
浏览 1
提问于2020-06-26
得票数 1
1
回答
与红移本机表和外部表合并(频谱)
amazon-redshift
、
amazon-redshift-spectrum
如果我有一个视图,该视图包含本机表和外部表之间
的
联合,如so (伪代码): select from PageViewsPageViews在过去
的
两年里一直如此。外部表适用于2年以上
的
旧
数据
。 如果用户在过去6个月中
从
带有过滤器
的
视图中选择,那么RS频谱是
如何
处理它
的
--它是否
读取
整个外部表,
浏览 0
提问于2021-08-10
得票数 0
回答已采纳
2
回答
AWS Glue ETL作业失败,返回AnalysisException: U‘’Unable to推断拼花面板
的
架构。必须手动指定。;‘
amazon-web-services
、
apache-spark
、
parquet
、
aws-glue
我正在尝试创建AWS Glue ETL Job,将
数据
从
存储在
S3
中
的
拼图文件加载到红移表
中
。拼图文件是使用带有‘简单’文件模式选项
的
pandas编写到一个
S3
bucked
中
的
多个文件夹
中
的
。02/file_2.PARGET
S3
://bucket/parquet_table/02/file_3.PAR
浏览 1
提问于2017-11-14
得票数 3
2
回答
Spark/EMR能否
从
s3
多线程
读取
数据
multithreading
、
apache-spark
、
amazon-s3
、
amazon-emr
由于一些不幸
的
事件序列,我们最终得到了一个存储在
s3
上
的
非常零散
的
数据
集。表元
数据
存储在Glue上,
数据
写入bucketBy,并以拼图格式存储。因此,文件
的
发现不是问题,spark
分区
的
数量等于存储桶
的
数量,这提供了很好
的
并行性。 当我们在Spark/EMR上加载这个
数据
集时,我们最终让每个spark
分区
从
s3
浏览 2
提问于2020-01-20
得票数 2
1
回答
星火联接:对同一
分区
中
的
特定列具有相同值
的
记录
的
分组
apache-spark
、
apache-spark-sql
我们有两个Hive表,它们是使用join键
读取
和连接
的
,我们将其命名为user_id。然后,我们将这个连接
的
数据
集写入
S3
,并将其注册为用于后续任务
的
第三个表,以便使用这个已连接
的
数据
集。连接
数据
集中
的
其他列之一称为keychain_id。 我们希望将属于同一个keychain_id
的
所有用户记录分组到同一个
分区
中
,这样做是有原因
的
,以避免以后<
浏览 1
提问于2020-02-26
得票数 2
回答已采纳
1
回答
将压缩(gzip)
数据
从
s3
导入配置单元
hadoop
、
amazon-s3
、
hive
、
hdfs
、
amazon
我在
s3
://mybucket/ .gzip /*.gzip中有一堆文件。我正在使用以下命令加载到一个表
中
:set hive.exec.dynamic.partition.mode=nonstrictinto 200 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' LOCATION '
浏览 0
提问于2016-06-11
得票数 0
1
回答
如何
使用presto
从
Aws
S3
中
读取
带有
分区
的
拼花
数据
?
amazon-s3
、
partitioning
、
parquet
、
presto
我以带有
分区
的
S3
文件
的
形式将
数据
存储在
中
。我正在尝试使用presto
读取
这些
数据
。我能够
读取
数据
,如果我给出完整
的
位置与
分区
的
拼花文件。下面是
从
“a节”
读取
数据
的
查询: presto> create table IF NOT EXISTS default.sample(name var
浏览 0
提问于2019-08-05
得票数 1
1
回答
当星火
从
文件系统
读取
时,它会被送到驱动程序吗?
apache-spark
、
amazon-s3
、
hdfs
我想知道当星火吞食
数据
时,
数据
是否被输入到驱动程序
中
并发送给工作人员,由Spark指示节点
从
文件系统
读取
数据
?案例1 A.1 -驱动程序是
读取
文件并将<e
浏览 0
提问于2017-08-07
得票数 1
回答已采纳
1
回答
是否有一种方法可以知道在
S3
表
中
编写
的
最后一个
分区
用于AWS作业
中
的
下推谓词?
apache-spark-sql
、
boto3
、
aws-glue
、
aws-glue-data-catalog
、
aws-glue-spark
我试着
从
Glue作业
中
读取
S3
表中最后一个
分区
,使用下推谓词
读取
动态框架。 我想要
读取
的
表每天都会被加载,因此将为每天
的
数据
创建一个新
的
分区
。我有另一个Glue作业,它将从那个表
中
读取
,但我只想
读取
最后一个
分区
中
写入
的
最后一个
数据
。我不想读整个表,然后得到最
浏览 2
提问于2021-02-02
得票数 2
2
回答
不要忽略空
分区
performance
、
apache-spark
、
amazon-s3
、
partitioning
、
parquet
我试图通过使用下推谓词
读取
数据
集
的
子集。我
的
输入
数据
集包含存储在
s3
上
的
1,2TB和43436块文件。使用下推谓词,我应该
读取
1/4
的
数据
。 看到星火UI。我看到作业实际上
读取
1/4
的
数据
(300 of ),但是在作业
的
第一阶段仍然有43436个
分区
,但是只有1/4
的
分区<
浏览 2
提问于2020-06-25
得票数 6
回答已采纳
1
回答
在spark/scala
中
读取
s3
时,
分区
id被隐式转换
scala
、
apache-spark
、
amazon-s3
、
apache-spark-sql
、
parquet
我有
s3
中
的
源
数据
,我
的
spark/scala应用程序将在一个新
的
partition_id列上对它进行
分区
之后,
读取
这些
数据
并将其写成拼花文件。partition_id
的
值将通过从具有字母数字字符串值
的
另一个id列
中
获取前两个字符来导出。例如:将
数据
写入
s3
后,将为
浏览 1
提问于2019-09-25
得票数 1
回答已采纳
1
回答
是否可以使用Dask和Fastparquet阅读器手动
读取
分区
的
拼图
数据
集?
python
、
amazon-s3
、
dask
、
parquet
、
fastparquet
我创建了一个按如下方式
分区
的
拼图
数据
集: 2019-taxi-trips/ - data.parquet -此
分区
方案是手动生成
的
,因此目录树
中
的
任何位置都没有_metadata文件。 现在我想将此
数据
集
读取
到Dask
中
。/2019-taxi-trips/*/data
浏览 21
提问于2020-10-08
得票数 1
回答已采纳
1
回答
NiFi - SelectHiveQL能以拼板格式
从
CDH集群上
的
表
中
读取
数据
吗?
apache-nifi
、
parquet
、
cloudera-cdh
我有一个用例,我必须将
数据
从
内部CDH集群移动到AWS EMR集群。我正在考虑在AWS NiFi实例上设置EC2,以便将
数据
从
内部集群移动到AWS
s3
存储。我在CDH集群上
的
所有表都以拼花格式存储。我唯一
的
选择是直接
从
hdfs目录
读取
数据
并将其放在
s3
上,然后在EMR
中
创建hive表?
浏览 0
提问于2018-10-24
得票数 0
回答已采纳
1
回答
使用Spark和Alluxio管理
S3
的
文件大小
apache-spark
、
amazon-s3
、
hive
、
alluxio
我使用Spark在Alluxio
中
写入
数据
,使用UFS作为
S3
,使用Hive拼接
分区
表。我在Alluxio中使用配置单元
分区
字段上
的
重
分区
函数来提高写操作
的
效率。这会导致在Alluxio
中
创建单个文件,即在
S3
中
为
分区
组合创建单个对象。虽然Alluxio具有使用
S3
的
偏移量以字节为单位
读取
数据
的</em
浏览 8
提问于2019-07-02
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
怎么从丢失的硬盘分区中恢复数据?
如何从损坏的FAT32分区中恢复数据图文教程
java读取excel中的数据如何判断含有公式
python如何读取CSV文件中的特定行数据
大数据:从错误的角度出发 如何从数据中获得价值?
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券