如何从Trino读取S3中的数据分区_从带分区的S3读取RC文件pyspark 2.0.0_从存储桶读取时的spark分区数- S3 - GCS - 腾讯云开发者社区

amazon-s3、hive、hive-metastore、trino、hive-partitions

我正在尝试从Trino读取S3中的数据分区。我到底做了什么：我将所有分区的数据上传到S3。我有一个指定的avro模式，我把它放在文件本地系统中。然后，我创建了一个外部配置单元表，以指向S3中的数据位置和文件本地系统中的avro schem

浏览 149提问于2021-01-29得票数 2

1回答

使用HUDI在TRINO上创建表的示例

apache-spark、create-table、trino、apache-hudi

我使用Spark Structured Streaming (3.1.1)从Kafka读取数据，并使用HUDI (0.8.0)作为S3上的存储系统，按日期对数据进行分区。(本节无问题)我创建了一个具有以下模

浏览 6提问于2021-12-23得票数 3

1回答

如何在S3上创建分区的Trino表(带有子模块)

presto、trino

我的s3位置的结构如下s3://bucketname/snapshot/db_collection/snapshot/db_collection/级别定义trino表；这样，如果我查询一行，并且它存在于2个快照中，那么我将得

浏览 5提问于2022-10-19得票数 0

2回答

为什么AWS Athena在目标S3位置转储结果时需要'spill-bucket‘

sql、amazon-web-services、amazon-athena、trino

为什么AWS Athena在目标S3位置转储结果时需要'spill-bucket‘( format = 'Parquet', ) WITH my_data_2 (SELECT *FROM existing_tablegenerated_data

浏览 0提问于2021-02-24得票数 2

1回答

spark如何在幕后读取数据？

apache-spark、amazon-s3、pyspark

例如，我有点困惑于spark是如何从s3读取数据的。假设要从s3读取100 GB的数据，而spark集群的总内存为30 GB。spark是否会在触发操作后读取所有100 GB的数据，并将最大数量的分区存储在内存中，并将剩余的分区溢出到磁盘?还是只读取

浏览 2提问于2021-09-19得票数 2

1回答

部分加载分区时，Amazon不返回最近的数据

amazon-web-services、amazon-s3、amazon-athena

我定义了一个分区表，它指向使用日期分区的S3桶。我有过去3个月的数据在S3桶里。我已经加载了第一个月的分区。但是，在过去两个月中，我没有使用msck repair table或alter table命令在分区中加载数据。当我试图查询表时，过去两个月的数据不是从S3加载的，只有最新的分区

浏览 0提问于2019-09-28得票数 2

回答已采纳

1回答

Spark如何创建从S3读取的对象的分区？

amazon-web-services、apache-spark、hadoop、amazon-s3、aws-glue

Spark如何创建从S3读取的对象的分区？我在S3中有一个118MB大小的对象。我将对象读入胶水动态框架。转换为spark数据帧并应用了一些转换。然后将数据写回S3。输出文件夹由大小为51MB和39MB的两个对象组成。Spark如何决定从S3读取的

浏览 1提问于2020-06-26得票数 1

1回答

与红移本机表和外部表合并(频谱)

amazon-redshift、amazon-redshift-spectrum

如果我有一个视图，该视图包含本机表和外部表之间的联合，如so (伪代码)： select from PageViewsPageViews在过去的两年里一直如此。外部表适用于2年以上的旧数据。如果用户在过去6个月中从带有过滤器的视图中选择，那么RS频谱是如何处理它的--它是否读取整个外部表，

浏览 0提问于2021-08-10得票数 0

回答已采纳

2回答

AWS Glue ETL作业失败，返回AnalysisException: U‘’Unable to推断拼花面板的架构。必须手动指定。；‘

amazon-web-services、apache-spark、parquet、aws-glue

我正在尝试创建AWS Glue ETL Job，将数据从存储在S3中的拼图文件加载到红移表中。拼图文件是使用带有‘简单’文件模式选项的pandas编写到一个S3 bucked中的多个文件夹中的。02/file_2.PARGET S3://bucket/parquet_table/02/file_3.PAR

浏览 1提问于2017-11-14得票数 3

2回答

Spark/EMR能否从s3多线程读取数据

multithreading、apache-spark、amazon-s3、amazon-emr

由于一些不幸的事件序列，我们最终得到了一个存储在s3上的非常零散的数据集。表元数据存储在Glue上，数据写入bucketBy，并以拼图格式存储。因此，文件的发现不是问题，spark分区的数量等于存储桶的数量，这提供了很好的并行性。当我们在Spark/EMR上加载这个数据集时，我们最终让每个spark分区从s3

浏览 2提问于2020-01-20得票数 2

1回答

星火联接:对同一分区中的特定列具有相同值的记录的分组

apache-spark、apache-spark-sql

我们有两个Hive表，它们是使用join键读取和连接的，我们将其命名为user_id。然后，我们将这个连接的数据集写入S3，并将其注册为用于后续任务的第三个表，以便使用这个已连接的数据集。连接数据集中的其他列之一称为keychain_id。我们希望将属于同一个keychain_id的所有用户记录分组到同一个分区中，这样做是有原因的，以避免以后<

浏览 1提问于2020-02-26得票数 2

回答已采纳

1回答

将压缩(gzip)数据从s3导入配置单元

hadoop、amazon-s3、hive、hdfs、amazon

我在s3://mybucket/ .gzip /*.gzip中有一堆文件。我正在使用以下命令加载到一个表中：set hive.exec.dynamic.partition.mode=nonstrictinto 200 BUCKETS ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' LINES TERMINATED BY '\n' LOCATION '

浏览 0提问于2016-06-11得票数 0

1回答

如何使用presto从Aws S3中读取带有分区的拼花数据？

amazon-s3、partitioning、parquet、presto

我以带有分区的S3文件的形式将数据存储在中。我正在尝试使用presto读取这些数据。我能够读取数据，如果我给出完整的位置与分区的拼花文件。下面是从“a节”读取数据的查询： presto> create table IF NOT EXISTS default.sample(name var

浏览 0提问于2019-08-05得票数 1

1回答

当星火从文件系统读取时，它会被送到驱动程序吗？

apache-spark、amazon-s3、hdfs

我想知道当星火吞食数据时，数据是否被输入到驱动程序中并发送给工作人员，由Spark指示节点从文件系统读取数据？案例1 A.1 -驱动程序是读取文件并将<e

浏览 0提问于2017-08-07得票数 1

回答已采纳

1回答

是否有一种方法可以知道在S3表中编写的最后一个分区用于AWS作业中的下推谓词？

apache-spark-sql、boto3、aws-glue、aws-glue-data-catalog、aws-glue-spark

我试着从Glue作业中读取S3表中最后一个分区，使用下推谓词读取动态框架。我想要读取的表每天都会被加载，因此将为每天的数据创建一个新的分区。我有另一个Glue作业，它将从那个表中读取，但我只想读取最后一个分区中写入的最后一个数据。我不想读整个表，然后得到最

浏览 2提问于2021-02-02得票数 2

2回答

不要忽略空分区

performance、apache-spark、amazon-s3、partitioning、parquet

我试图通过使用下推谓词读取数据集的子集。我的输入数据集包含存储在s3上的1,2TB和43436块文件。使用下推谓词，我应该读取1/4的数据。看到星火UI。我看到作业实际上读取1/4的数据(300 of )，但是在作业的第一阶段仍然有43436个分区，但是只有1/4的分区<

浏览 2提问于2020-06-25得票数 6

回答已采纳

1回答

在spark/scala中读取s3时，分区id被隐式转换

scala、apache-spark、amazon-s3、apache-spark-sql、parquet

我有s3中的源数据，我的spark/scala应用程序将在一个新的partition_id列上对它进行分区之后，读取这些数据并将其写成拼花文件。partition_id的值将通过从具有字母数字字符串值的另一个id列中获取前两个字符来导出。例如：将数据写入s3后，将为

浏览 1提问于2019-09-25得票数 1

回答已采纳

1回答

是否可以使用Dask和Fastparquet阅读器手动读取分区的拼图数据集？

python、amazon-s3、dask、parquet、fastparquet

我创建了一个按如下方式分区的拼图数据集： 2019-taxi-trips/ - data.parquet -此分区方案是手动生成的，因此目录树中的任何位置都没有_metadata文件。现在我想将此数据集读取到Dask中。/2019-taxi-trips/*/data

浏览 21提问于2020-10-08得票数 1

回答已采纳

1回答

NiFi - SelectHiveQL能以拼板格式从CDH集群上的表中读取数据吗？

apache-nifi、parquet、cloudera-cdh

我有一个用例，我必须将数据从内部CDH集群移动到AWS EMR集群。我正在考虑在AWS NiFi实例上设置EC2，以便将数据从内部集群移动到AWS s3存储。我在CDH集群上的所有表都以拼花格式存储。我唯一的选择是直接从hdfs目录读取数据并将其放在s3上，然后在EMR中创建hive表？

浏览 0提问于2018-10-24得票数 0

回答已采纳

1回答

使用Spark和Alluxio管理S3的文件大小

apache-spark、amazon-s3、hive、alluxio

我使用Spark在Alluxio中写入数据，使用UFS作为S3，使用Hive拼接分区表。我在Alluxio中使用配置单元分区字段上的重分区函数来提高写操作的效率。这会导致在Alluxio中创建单个文件，即在S3中为分区组合创建单个对象。虽然Alluxio具有使用S3的偏移量以字节为单位读取数据的</em

浏览 8提问于2019-07-02得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云