如何用一个位置路径从多个文件夹创建多个表，雅典娜也应该使用glue crawler来处理它

从多个文件夹创建多个表的方法是使用AWS Glue来处理。AWS Glue是一种完全托管的ETL（Extract, Transform, Load）服务，可帮助我们轻松地准备和加载数据到各种数据存储中。

要使用AWS Glue来处理这个任务，可以按照以下步骤进行操作：

创建一个Glue Crawler：在AWS Glue控制台中，创建一个新的Crawler。Crawler是一种自动发现和注册数据源的服务，它会扫描指定的文件夹路径并自动创建表结构。
配置Crawler的数据源：在创建Crawler时，需要指定数据源的位置路径。可以指定多个文件夹路径，以便从多个文件夹创建多个表。
配置Crawler的目标：在创建Crawler时，需要指定目标数据存储的位置。可以选择将表结构和数据加载到AWS Glue Data Catalog中，也可以选择将数据加载到其他数据存储中，如Amazon S3、Amazon Redshift等。
运行Crawler：配置完Crawler后，可以手动运行Crawler来扫描指定的文件夹路径并创建表结构。也可以设置定期运行Crawler，以便自动更新表结构。
使用创建的表：一旦Crawler完成运行并成功创建了表结构，就可以在AWS Glue Data Catalog中查看和使用这些表了。可以使用AWS Glue提供的各种功能和工具来进行数据转换、数据清洗、数据分析等操作。

需要注意的是，雅典娜（Athena）也可以使用Glue Crawler来处理这个任务。雅典娜是AWS提供的一种交互式查询服务，可以直接在S3中运行SQL查询。通过使用Glue Crawler，可以自动创建和更新Athena所需的表结构，使得在Athena中查询数据更加方便。

推荐的腾讯云相关产品是腾讯云数据工场（DataWorks），它是一种全托管的大数据开发和运维平台，提供了类似于AWS Glue的功能。腾讯云数据工场可以帮助用户轻松地构建和管理数据处理流程，包括数据抽取、数据转换、数据加载等操作。您可以通过腾讯云官方网站了解更多关于腾讯云数据工场的信息和产品介绍。

参考链接：

AWS Glue官方文档：https://docs.aws.amazon.com/glue/index.html
腾讯云数据工场产品介绍：https://cloud.tencent.com/product/dp

页面内容是否对你有帮助？

有帮助

没帮助

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗？

、、、、

我们有一个现有的基础设施，可以通过aws爬虫爬行S3目录。这些S3目录是作为AWS的一部分创建的，并通过spark作业转储。为了实现增量功能，我们在deltalake上做了一个POC。因此，当我通过星火三角洲作业在S3中编写这些deltalake文件时，我的爬虫程序无法从这些爬虫器中创建表。我们能用AWS爬虫来抓取三角洲湖的文件吗？

浏览 5提问于2020-09-05得票数 2

回答已采纳

8回答

AWS雅典娜从从胶水爬虫输入csv创建的表返回零记录从S3

、、、、

第一部分:但雅典娜的ELB演示数据运行良好。第二部分(场景：) 假设我有一个excel文件和数据字典，说明如何和什么格式的数据存储在该文件中，我希望将数据转储到AWS Redshift中

浏览 25提问于2017-11-13得票数 14

1回答

如何用一个位置路径从多个文件夹创建多个表，雅典娜也应该使用glue crawler来处理它

、、、、

我尝试过这样做，但没有达到要求的结果-我有多个CSV文件在s3存储桶的文件夹中，但当它为它创建多个表时，雅典娜返回零结果，所以我为每个文件创建了一个不同的文件夹，然后它工作得很好。问题-但是如果将来要添加更多的文件夹，那么我必须去爬虫，并且必须为每个新添加的文件夹添加一个新的位置路径，所以有没有什么方法可以自动

浏览 22提问于2020-03-20得票数 0

回答已采纳

2回答

如何使用为动态S3路径创建雅典娜表？

、、、、

下面是我的S3路径，在这些路径下存在多个文件夹。每个文件夹都包含一个CSV文件，每个文件都有不同的架构。我想使用</e

浏览 5提问于2021-10-21得票数 0

回答已采纳

1回答

Glue crawler未合并数据-表中也没有可见数据

、、、、

我正在测试这个架构: Kinesis Firehose S3→雅典娜。现在我使用的是Kinesis生成的虚拟数据，每一行看起来像这样：{"ticker_symbol":"NFLX","sector":"TECHNOLOGY","change":-1.17,"price":首先，Glue Crawler为每个文件创建一个单独的表。我读到过，如果模式匹配，

浏览 18提问于2021-01-28得票数 0

1回答

AWS Athena -由于分区导致的重复列

、、、、

我们有一个胶水爬虫来读取S3中的avro文件，并相应地在胶水目录中创建一个表。问题是，我们有一个名为'foo‘的列，它来自avro schema，我们在s3存储桶路径中也有类似于'foo=XXXX’的东西，以具有配置单元分区。我们不知道的是，爬虫随后将创建一个表，该表现在有两个同名的列，因此我们在查询表时遇到的问题是： HIVE_INVALID_METADATA

浏览 27提问于2019-12-10得票数 5

回答已采纳

1回答

创建列名包含点(.)的表时出错在亚马逊，雅典娜，甚至在用后排(`)逃离圆点之后

、、、、

重要虽然您可能成功地创建了包含除下划线以外的特殊字符的表、视图、数据库或列名，方法是将它们括在回勾(`)字符中，但是引用它们的后续DDL或DML查询可能失败。因此，我尝试使用存储在S3桶中的JSON文件创建一个表，JSON中的一个键包含多个点(.)，根据链接上提供的信息，如果我使用backticks(`)来转义它，应该是可以的。，但是当我通过AWS Glue中的

浏览 0提问于2020-06-26得票数 1

回答已采纳

1回答

为什么Kinesis或Crawler要在我的数据中创建分区？

、、、、

上下文:根据胶水模式，我使用动态技术将来自lambda的数据流到一个S3桶中。然后，我在我的S3桶上运行一个爬虫来编目我的数据。但是，当数据存储在我的S3桶中时，数据存储在以下dir结构中：然后，当我在上面运行我的爬虫时，我的爬虫会创建4个额外的分区键我不希望这些属性被创建..。问:为什么胶水爬虫要创建这些附加属性，我如何阻止它创建它们？或者，如何

浏览 10提问于2022-07-26得票数 0

回答已采纳

1回答

雅典娜外部表中基座位置的变化

、、、、

key=2/<data>s3://my-bucket/202001/tablenm/key=4/<data>现

浏览 0提问于2020-04-24得票数 1

1回答

雅典娜- CTAS文件名

、、

我使用了雅典娜的CTAS和插入命令以及在external_location中创建的Avro文件，但是文件名非常奇怪，文件扩展名也消失了。(该文件没有任何文件扩展名。文件只有奇怪的文件名，如哈希码)我如何为雅典娜的文件定义文件名规则？谢谢。

浏览 1提问于2020-01-08得票数 1

回答已采纳

5回答

AWS Glue不会检测分区并在目录中创建1000+表

、、

我正在使用AWS Glue创建元数据表。AWS Glue Crawler数据存储路径: s3://bucket-name/├── bucket-name │ ├── pt=2011-10-11-10 为此aws cra

浏览 0提问于2018-01-09得票数 9

1回答

是否可以更改AWS雅典娜输出文件的分隔符

、

下面是我的示例代码，其中我使用Athena在S3桶中创建了一个文件。默认情况下，该文件采用csv格式。是否有办法将其改为管道分隔符？

浏览 6提问于2020-06-30得票数 1

1回答

如何从S3关联、连接和聚合多个文件

、、、、

在每个文件夹中，我希望连接3个表，并将输出存储在一个专用表中。专用表最终应该保存来自所有不同文件夹的连接数据。重复可能发生在不同的文件夹之间，但是记录有一个唯一的键，可以帮助聚合。然后，使用sql为这3个表创建联接表，最后将连接的数据添加到聚合表中，该表应该包含所有文件夹中的数据。我目前正在

浏览 1提问于2019-05-03得票数 0

回答已采纳

2回答

AWS Glue爬虫需要从具有相同模式的多个文件创建一个表。

、

我们在S3中有大量的文件夹和文件，它们都在一个特定的文件夹下，我们希望抓取所有的CSV文件，然后从雅典娜的一个表中查询它们。CSV文件都有相同的模式。问题是，爬虫正在为每个文件生成一个表，而不是一个表。爬虫配置有一个复选框选项，用于“为每个S3路径创建一个模式”，但这似乎什么也做不了。我需要什么是可能的吗？谢

浏览 0提问于2019-01-23得票数 6

1回答

AWS雅典娜查询分区

、、、

我试图使用为现有的平台提供分析。当前的流如下所示：火软管使用中的表将数据转换为拼图，并每15分钟或当流达到128 MB (最大支持值)时写入S3。当数据被写入S3时，它将使用路径/year=!{timestamp:yyyy}/month=!{timestamp:MM}/day=!{timestamp:dd}/...进行分区。AWS Glue爬虫每24小时更新一次包含最新分区数据的表，

浏览 0提问于2019-04-26得票数 1

回答已采纳

3回答

如何访问分区雅典娜表的子目录中的数据

、

我有一个雅典娜表，每天都有一个分区，其中实际的文件按小时排列在“子目录”中，如下所示：s3://my-bucket00002.jsons3://

浏览 0提问于2019-07-01得票数 2

回答已采纳

2回答

AWS Quicksight无法在另一个区域看到Athena DB

、、

我的Athena DB位于ap-south-1区域，而AWS QuickSight不存在于该区域.

浏览 10提问于2019-10-10得票数 3

回答已采纳

1回答

雅典娜-保留的字和桌子，不能被查询。

我将JSON数据文件放入S3，并使用AWS构建表定义。我每个json“行”大约有120个字段。其中一个字段在小写中称为“时间戳”。我有1000多个大文件，不愿全部修改。在这里()，我看到时间戳在DDL是一个保留字。这是否意味着我无法从雅典娜那里读取那些JSON文件。SELECT * FROM

浏览 0提问于2020-10-22得票数 1

回答已采纳

2回答

廉价的AWS日志聚合器

、、

我需要从多个EC2 (在伸缩组中)聚合Apache和Tomcat日志--什么是在不破坏银行的情况下启动这项操作的最佳方法？允许使用Cloudwatch +任何其他功能。

浏览 25提问于2020-10-01得票数 3

1回答

AWS Glue:如何使用不同模式的ETL非标量JSON

、、、、

通过数组索引的规范所需的json数组像上面那样解析来自动态框架的数据，使用诸如pyspark.sql.functions.explode只要有<em

浏览 0提问于2018-06-26得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何用一个位置路径从多个文件夹创建多个表，雅典娜也应该使用glue crawler来处理它

相关·内容

Glue Crawler可以抓取deltalake文件来创建aws胶水目录中的表吗？

AWS雅典娜从从胶水爬虫输入csv创建的表返回零记录从S3

如何用一个位置路径从多个文件夹创建多个表，雅典娜也应该使用glue crawler来处理它

如何使用为动态S3路径创建雅典娜表？

Glue crawler未合并数据-表中也没有可见数据

AWS Athena -由于分区导致的重复列

创建列名包含点(.)的表时出错在亚马逊，雅典娜，甚至在用后排(`)逃离圆点之后

为什么Kinesis或Crawler要在我的数据中创建分区？

雅典娜外部表中基座位置的变化

雅典娜- CTAS文件名

AWS Glue不会检测分区并在目录中创建1000+表

是否可以更改AWS雅典娜输出文件的分隔符

如何从S3关联、连接和聚合多个文件

AWS Glue爬虫需要从具有相同模式的多个文件创建一个表。

AWS雅典娜查询分区

如何访问分区雅典娜表的子目录中的数据

AWS Quicksight无法在另一个区域看到Athena DB

雅典娜-保留的字和桌子，不能被查询。

廉价的AWS日志聚合器

AWS Glue:如何使用不同模式的ETL非标量JSON

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐