通过Athena SDK创建胶水数据目录

、、、

我想使用雅典娜对另一个亚马逊网络服务账户的S3存储桶中的数据进行查询。我正在使用Javascript SDK。通读文档，我知道我必须首先创建一个数据目录，将雅典娜指向正确的S3位置。此方法的大多数参数都是不言而喻的，除了“参数”参数，它似乎包含有关如何创建数据目录的信息。但是我在任何地方都找不到这些参数应该是什么样子的。所以我的问题是：这里要提供的参数是什么？这是创建glue数据目录(包括<

浏览 33提问于2021-02-16得票数 1

回答已采纳

1回答

无法创建新的AWS Athena数据目录

、

我正在尝试在雅典娜创建新的胶水数据目录。它总是失败，返回INVALID_INPUT，没有其他错误上下文。这是我正在使用的https://docs.aws.amazon.com/sdk-for-ruby/v3/api/Aws/Athena/Client.html#create_data_catalog-instance_methodrequire 'aws-sdk-athen

浏览 13提问于2020-09-25得票数 1

1回答

当我们使用手动上传到s3桶更新现有分区中的数据时，这些数据将显示在雅典娜胶水表中的现有分区中。但是当使用API更新数据时，上传到s3桶中的数据在现有分区中，而在胶水表中的数据存储在当前日期的不同分区中，但是在我的different(s3://aiq-grey-s3-sink-created-at-partition所以，当我在胶水表中检查相同的对象时，我想在2022/07/19之前完成分区。但是它按

浏览 9提问于2022-08-03得票数 0

1回答

将数据从API端点拉入AWS

、、

所以我是API的新手，我有这样的用例:有订单历史记录存储在一个位置上，而供应商已经将这些作为API端点公开(给定一个URL以及API键/参数等)，我想提取这些数据并将其带到我的Redshift表中。现在，我正在探索GLUE，因为它具有作业创建/调度功能，但是GLUE只支持使用JDBC协议的少数数据源以及几个非本机数据源。我找不到任何特定于Glue从API端点拉取数据的东西。

浏览 18提问于2019-12-20得票数 1

1回答

如何用ODBC连接雅典娜和Power BI

、、

:BatchGetQueryExecution", "athena:GetCatalogs"athena:GetNamespace", "athena:GetQueryExecuti

浏览 1提问于2019-11-14得票数 1

回答已采纳

1回答

亚马逊雅典娜能否在没有胶水目录的情况下工作？

、、

我可以在AWS中使用Informatica EDC而不是Glue目录吗？AWS Athena是否与Glue目录紧密耦合？

浏览 14提问于2020-09-10得票数 0

2回答

AWS胶水目录作业上的MSCK修复命令

、

我们是否可以安排AWS胶水作业执行MSCK修复命令，以便将新添加分区的元数据添加到胶水目录中？ Glue ETL脚本可以在不调用Athena的情况下执行MSCK修复表命令吗？

浏览 0提问于2018-04-10得票数 2

1回答

使用Terraform创建雅典娜资源

、、、

我想通过Terraform创建一个雅典娜数据库，包括表和视图。命令来创建这些资源，例如：AWS Athena Create table view with SQL 但我不想这么做。我想(尽可能)用Terraform创建所有东西，这样我就不必担心生命周期等问题了。据我所知，雅典娜数据库可以是Glue数据库，这取决于您选择的源。如果我选择AWSDataCatalog (胶水)作为雅典娜中的数据源，那么我用Terrafo

浏览 18提问于2020-10-06得票数 0

1回答

AWS雅典娜-合并小拼图文件或离开它们？

、、

我有很多小拼图文件是通过AWS胶水读取到雅典娜的。我知道小的拼图文件(每个35k左右，因为日志输出它们的方式)并不理想，但是一旦它们被读取到数据目录中，它还重要吗？换句话说，在加载到Athena之前，我是否应该将所有小拼图文件合并到更理想大小的文件中？

浏览 14提问于2021-03-27得票数 1

回答已采纳

1回答

运行AWS Athena* query Query时返回零条记录*

、

parquetcheck" limit 10; 尝试在S3中使用Parquet文件，并在AWS Athena中创建了一个表，它被创建得很完美。虽然我在S3中的拼图文件有数据。我也创建了分区。IAM对雅典娜有完全访问权限。

浏览 15提问于2019-12-17得票数 0

3回答

(AWS)雅典娜:查询结果似乎太短

、、、

设置：Athena Cap是否查询结果数据？

浏览 0提问于2018-01-19得票数 5

1回答

如何创建雅典娜堆栈并使用Glue数据目录？

、、、

我必须在云形成中创建雅典娜模板，任务是使用CF复制下一个Terraform脚本： name= "sample_athena_wg" name = &qu

浏览 13提问于2022-03-16得票数 0

3回答

使用AWSGlue作为数据在S3中的蜂窝元存储

、、

我试图使用AWSGlue作为一个外部转移，通过电子病历集群的蜂巢。当我将ssh放入电子病历集群并尝试访问Hive时，我希望在运行“显示表”命令时，会发现我在AWSGlue中创建的表将存在，但在启动交互式Hive时，我会得到以下错误消息java.lang.RuntimeException: org.apache.hadoop.hive.ql.metada

浏览 2提问于2018-12-12得票数 2

2回答

AWS雅典娜输出result.json到s3 -创建表作为/插入到选择？

、、、

用AWS雅典娜进行新数据的CREATE TABLE有可能吗？我知道AWS雅典娜自动将结果写入S3桶作为CSV。

浏览 2提问于2018-01-05得票数 0

2回答

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

、、、

现在我想使用AWS glue for ETL将数据从S3传输到Redshift。要使用它，我如何在数据目录中添加S3路径？我只想同步最近使用的文件夹CSV文件。

浏览 1提问于2019-09-19得票数 0

1回答

从雅典娜获取数据和粘合权限

、、、

我正在使用这里列出的代码通过雅典娜https://gist.github.com/schledererj/b2e2a800998d61af2bbdd1cd50e08b76查询数据。

浏览 17提问于2019-03-07得票数 1

回答已采纳

1回答

AWS Glue Python作业未创建新的数据目录分区

、、、、

我使用Glue Studio创建了一个AWS胶水作业。它从Glue data Catalog中获取数据，执行一些转换，然后写入不同的Data Catalog。在配置目标节点时，我启用了在运行以下命令后创建新分区的选项：作业成功运行，数据以正确的分区文件夹结构写入S3，但没有在实际的数据目录表中创建新分区-我仍然需要运行胶水爬虫来创建它们。生成的脚本中负责创建分区的代码如下(作业的最后两行

浏览 5提问于2021-03-19得票数 5

1回答

Spark EMR S3处理大量文件

、、、、

我在S3中有大约15000个文件，每个文件包含几分钟的数据，每个文件的大小在300-700MB之间。由于递归地循环访问YYYY/MM/DD/HH24/MIN格式的目录代价很高，因此我创建了一个包含给定日期所有S3文件列表的文件(objects_list.txt)，并将该文件作为输入传递给spark read我只看到驱动程序在工作，所有节点都没有做任何事情，不确定为什么驱动程序要打开每个S3文件进行读取，因为AFAIK spark工作懒惰，所以在一个称为读取的操作之前，我认为它会列出每个文件并收集一些与

浏览 2提问于2017-10-09得票数 3

1回答

胶水-将CSV事件转换为Parquet的作业

、、、、

My的方法:首先，我创建了一个用于爬行csv_events的胶水爬虫，并创建了一个athena_table(csv_events_table)。然后创建一个Glue作业，它将以csv_events_table作为输入，并将这些事件转换为拼图，并将结果存储到S3中。最后，为这个parquet_events(parquet_events_table)创建另一个表。我的方法类似于这样：它运行得很好，但我最终得到了两个athena_tables(csv_events_tab

浏览 3提问于2020-07-31得票数 2

1回答

创建AWS胶水作业需要爬虫吗？

、、、、

我正在通过下面的页面：来学习“用Pyspark来学习Glue”。我的问题是:创建胶水作业需要爬虫&在湖中创建数据库吗？我的aws角色有一些问题，我没有被授权在LakeFormation中创建资源，所以我想我是否可以跳过它们，只创建一个胶水作业并测试我的脚本？我是否可以使用boto3创建一个胶水作业来测试脚本并对数据进行预处理并将数据写回s3？

浏览 3提问于2021-02-07得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

无法创建新的AWS Athena数据目录

如何在不运行爬虫的情况下更新aws胶水表中现有的分区数据？

将数据从API端点拉入AWS

如何用ODBC连接雅典娜和Power BI

亚马逊雅典娜能否在没有胶水目录的情况下工作？

AWS胶水目录作业上的MSCK修复命令

使用Terraform创建雅典娜资源

AWS雅典娜-合并小拼图文件或离开它们？

运行AWS Athena* query Query时返回零条记录*

(AWS)雅典娜:查询结果似乎太短

如何创建雅典娜堆栈并使用Glue数据目录？

使用AWSGlue作为数据在S3中的蜂窝元存储

AWS雅典娜输出result.json到s3 -创建表作为/插入到选择？

从Glue Catalog和Glue Py Spark脚本中的动态路径同步CSV文件

从雅典娜获取数据和粘合权限

AWS Glue Python作业未创建新的数据目录分区

Spark EMR S3处理大量文件

胶水-将CSV事件转换为Parquet的作业

创建AWS胶水作业需要爬虫吗？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐