Athena -抓取存储桶中的最新文件_从存储桶中删除文件_使用C#获取S3存储桶中的最新文件 - 腾讯云开发者社区

、

我是雅典娜和S3的新手。我们将雅典娜设置为访问连接到数据库的S3存储桶，每个存储桶每天保存相同的数据表。a.creation_date<='2018-12-31' ORDER BY a.creation_date desc, a.business_name asc 我正在尝试弄清楚是否有一种方法可以动态查询最新的可用表/<username>/athena</e

浏览 13提问于2019-02-19得票数 0

1回答

如何通过AWS Glue获取最新数据

、

我在AWS中管理一些数据，S3桶中有一些拼花文件。每天，新的文件将添加到这个桶中，我想通过使用Athena获取最新文件中的数据。我想知道如何在雅典娜查询中指定最新的文件路径。是否可以从每个拼花文件的路径中识别出最新的文件

浏览 6提问于2021-12-02得票数 1

回答已采纳

1回答

AWS Glue crawler -在爬行json数据时获取“内部服务异常”

、、

我面临着从S3存储桶中爬行数据的问题。当我尝试从S3抓取这些数据时，我得到了“内部服务异常”。JSON :行不是有效的HIVE_CURSOR_ERROR对象- JSONException:重复键谢谢，..

浏览 14提问于2020-02-24得票数 1

1回答

AWS Glue Crawler将所有数据发送到Glue Catalog和Athena，而无需Glue Job

、、

我对AWS胶水有新的了解。我正在使用AWS Glue Crawler从两个S3存储桶中抓取数据。我在每个存储桶中都有一个文件。AWS Glue Crawler在AWS Glue Data Catalog中创建了两个表，我还可以在AWS Athena中查询数据。我的理解是为了在雅典娜中获取数据，我需要创建胶水作业，这将在雅典娜中提取数据，但我错了。Glue craw

浏览 62提问于2021-10-08得票数 1

回答已采纳

1回答

如何用ODBC连接雅典娜和Power BI

、、

我增加了适当的水桶政策。"athena:GetNamespace", "athena:GetQueryExecution"athena:GetTable", "athe

浏览 1提问于2019-11-14得票数 1

回答已采纳

2回答

将S3文件合并为多个<1GB的S3文件

、、、

我在一个桶中有多个S3文件。假设有50个这样的文件。文件中的数据具有相同的模式，比如attribute1, attribute 2。我希望将这些文件合并到一个新的桶中，如下所示，这样，在相同的模式中，每个文件的容量都小于1GB。我正在考虑以下两种解决办法： AWS雅典娜-读和写到S3，但不确定我是否可以设置

浏览 17提问于2022-06-30得票数 0

1回答

如何将RabbitMQ消息以csv文件格式传输到亚马逊S3存储桶中，并使用雅典娜查询存储桶？

、、、、

我正在开发一个能够读取RabbitMQ消息并将其传输到亚马逊S3存储桶中的硬应用程序。 RabbitMQ消息应该以.csv文件格式存储在S3存储桶中。亚马逊S3存储桶应连接到AWS Athena以对其进行查询。有澄清的人能帮我吗？

浏览 13提问于2019-04-15得票数 0

2回答

如何从lambda中的事件中获取文件的s3存储桶名和键

、、

我们在一个lambda函数上设置了一个触发器，并希望在最新的文件被放入S3存储桶中时从该存储桶中获取该文件。文件名将会更改。我们想要从事件中抓取文件对象，但不知道如何抓取。现在，我们已经将直接文件名写为lambda函数中的变量，并在本地对其进行测试。它似乎可以工作，但是我们想

浏览 0提问于2018-12-22得票数 3

2回答

雅典娜如何从S3存储桶中读取拼图文件

、、、、

我可以制作拼花面板文件，可以通过拼花面板视图查看。我可以创建指向s3存储桶的雅典娜表。但是，当我在Athena Web GUI中查询该表时，它运行了10分钟(似乎永远不会停止)，并且没有显示任何结果。 fastparquet.write(r"test.parquet",

浏览 18提问于2018-09-06得票数 0

1回答

s3存储桶中为什么会出现空的txt对象？我可以控制保存它们的位置吗？

、、、、

一些lambda将对象从一个存储桶复制到另一个存储桶，还有一些在athena中运行查询并生成拼图文件。在状态机执行结束时，存储桶中会出现空的txt文件。我没有在亚马逊网络服务的文档中找到，也没有在boto3中找到对此的解释。我能否将aws定义为不保存这些文件/或设置位置？

浏览 3提问于2020-08-26得票数 0

1回答

使用AWS Athena在S3存储桶中创建指向多个子文件夹的表

、、、

是否有创建指向多个s3存储桶子文件夹的表的选项。示例： s3://athena-my- bucket /Test/location1和s3://athena-my-bucket/Test/location2有几个像location3、location4、location5这样的文件夹，但是我想创建一个只指向s3存储桶上这两个子文件

浏览 0提问于2020-08-25得票数 0

1回答

来自S3的CSV文件的数据掩蔽

、、、

我的公司在德国工作，我们有一些处理数据的规则。我在存储桶中有CSV文件。这些文件也有一些PII (公开可识别信息)和非PII数据。我想屏蔽PII数据并将其保存在同一存储桶中。我想在做最终报告时揭开它的面纱。

浏览 13提问于2021-04-09得票数 0

回答已采纳

1回答

使用AWS胶水爬虫的智能采样

、、、

我的s3存储桶上有几张桌子。这些表在内存大小和文件数量上都很大，它们存储在JSON中(我知道这不是最好的)，并且有很多分区。现在我想启用AWS Glue data Catalog和AWS Glue Crawlers，但是爬虫遍历所有数据的代价让我感到害怕。模式不会经常更改，因此没有必要遍历S3上的所有文件。爬虫会默认浏览所有的文件吗？有没有可能配置一种更智能的采样策略，只查看部分

浏览 14提问于2019-10-21得票数 0

5回答

boto3 (S3位置无效)雅典娜查询失败

、、、

但是，如果我转到雅典娜控制台，转到Settings并输入相同的S3位置(例如)：查询运行良好。Python: 3.6.1。Boto3: 1.4.4

浏览 11提问于2017-07-25得票数 6

回答已采纳

1回答

AWS雅典娜创建外部表是否成功，即使AWS s3中没有文件？

、、、、

"quoteChar" = "'",) location 's3://bucket_name/athena-workspace/athena-input/'上面的查询

浏览 2提问于2020-06-10得票数 0

1回答

AWS Athena外部表未返回数据

、、

我使用下面的DDL脚本在Athena中创建了一个外部表。表在Athena中创建成功，但是当我查询它时，它返回0行。指定的s3存储桶中的文件是csv.gz文件(我正尝试在TBLPROPERTIES中排除一个json文件)。s3存储桶所在的帐户与我查询它的帐户不同。假设我使用的IAM角色有权从另一

浏览 2提问于2020-10-15得票数 0

1回答

S3登陆桶中缺少雅典娜输出文件，即使设置了PutObject权限

、、

在检查了我的权限、角色和策略之后，我怀疑我有权限写入S3中的雅典娜输出位置，但由于某种原因，每当一个文件在输入S3桶上触发S3查询以在Lambda python集成中运行大型查询时，我注意到：我不知道为什么。我在雅典娜做了一个Alter，以确保表也指向正确的</em

浏览 2提问于2021-09-29得票数 0

回答已采纳

2回答

将SQL /J连接到Amazon时出错

、、

我在通过JDBC连接器将SQL /J连接到 Athena时遇到了很多问题。此外，这两种帮助资源之间的说明似乎有所不同： SimbaJDBC连接被拒绝: SimbaJDBC必需连接键: AwsRegion；SimbaJDBC可选连接键:

浏览 6提问于2017-12-27得票数 0

回答已采纳

2回答

如何在AWS Glue/Athena上使用AVRO格式

、、、

我在Kafka中有几个主题，正在将AVRO文件写入S3存储桶中，我想使用AWS Athena在存储桶上执行一些查询。我正在尝试创建一个表，但AWS Glue crawler运行，并且没有添加我的表(如果我将文件类型更改为JSON，它将起作用)。我试图从雅典娜控制台创建一个表，但它不显示对AVRO文件的支持。

浏览 16提问于2019-06-26得票数 2

1回答

将雅典娜查询结果输出到与Lambda不同的AWS帐户中的s3存储桶中

、、、

我正在尝试设置一个lambda来每天运行一个AWS Athena查询，并将结果输出到存储在不同AWS帐户中的s3存储桶中。我正在编写Lambda的帐户在另一个帐户中具有s3写权限，我只是不知道如何输入我想要写入的特定存储桶，并且我也找不到任何关于此用例的文档。AWS帐户中时，我的查询运行良好。我不能只写"s3:

浏览 1提问于2020-03-06得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云