EMR Presto配置中的任务并发参数_时间戳字段显示EMR上的Presto 0.170中的1970-01-01_更改GCP云任务队列中的最大并发任务数 - 腾讯云开发者社区

、、

我已经安装了一个带有Presto并正在运行的EMR集群。我可以使用presto-cli在服务器上查询我的数据，但我不完全确定如何将Presto配置为外部访问(例如，从我笔记本上的Tableau )。我查看了/usr/lib/presto/中的所有配置/属性文件，但它们似乎都与远程访问设置(即设置用户凭据和端口)无关。我的问题是，如何设置远程访问？任何帮助都将不胜感激。编辑:我能够连接到Presto (感谢@franklinsijo)；下面是一些挑剔之处：将config.properties中的发现URI更改为EMR服务器的公共DNS 确保您的本地IP地址被白名单化，以访问con

浏览 3提问于2017-02-03得票数 1

1回答

修改/etc/presto/conf中的配置文件后，如何重新启动presto-server

、

在aws emr中，修改/etc/presto/conf中的配置文件后，我们如何重新启动presto-server？只在主节点上还是在所有节点上？

浏览 0提问于2019-05-21得票数 0

1回答

通过Lamba函数创建EMR :在配置文件中获取主机名/IP

、、、、

我正在尝试通过Lambda函数配置/启动EMR。它工作得很好，除了在配置文件中获取IP地址或主机名之外。我正在尝试为presto config.properties文件配置一个属性，该文件的内容如下 "hive.metastore.uri" : "thrift://<IP address of the Master Node>:9083" 我不确定如何在每次启动新群集/emr时在配置文件中获取要替换的主节点的IP地址或主机名？我试过了- "hive.metastore.uri" : "thrift://${yarn.nodem

浏览 1提问于2017-05-23得票数 0

2回答

EMR上Zeppelin中的Presto解释器

、、

可以将Presto解释器添加到AWS EMR 4.3上的Zeppelin中吗?如果可以，有人可以发布说明吗？我在EMR上运行了Presto-Sandbox和Zeppelin-Sandbox。

浏览 2提问于2016-03-08得票数 5

2回答

在电子病历上重新启动预服务器服务的正确方法

、、

我必须在presto-server上重新启动EMR来加载。关于官方的AWS EMR文档：，他们说 sudo restart presto-server 他们说， sudo stop presto-server接sudo start presto-server 虽然赞成上述第二种技术，备注：停止/开始是必需的；不要使用重新启动命令。我发现这两种方法都没有故障。问题： sudo restart和sudo stop + sudo start有什么区别？为什么对restart发出警告用于presto-server的哪一个

浏览 1提问于2018-11-20得票数 3

回答已采纳

3回答

如何在Amazon上将连接器添加到presto

、、、

我已经安装了一个安装了Hive/Presto的小型EMR集群，我希望在S3上查询文件并将它们导入RDS上的Postgres。为了在S3上运行查询并将结果保存在postgres中的一个表中，我执行了以下操作：从AWS控制台启动一个3节点的EMR集群。手动将SSH放入主节点以在单元格中创建外部表，查看S3桶。手动将SSH放入3个节点中的每个节点，并添加一个新的目录文件： /etc/presto/conf.dist/catalog/postgres.properties 有以下内容 connection-url=jdbc:postgresql://ip-to-postgres:5

浏览 7提问于2016-03-17得票数 3

3回答

AWS EMR Presto没有使用AWS Glue找到正确的蜂巢模式

、、、

因此，我在通过AWS EMR执行Presto查询方面遇到了问题。我已经启动了一个EMR运行蜂箱/预售和使用AWS胶作为亚稳态。当我SSH进入主节点并运行hive时，我可以运行“显示模式”；它向我展示了我们在AWS Glue上拥有的3个不同的数据库。如果然后输入Presto并运行“显示蜂窝上的模式”，我只会看到两个“默认”和"information_schema“ 对于我的生活，我不明白为什么presto不能看到相同的蜂巢模式。这是一个基本的默认集群启动的EMR主要使用默认设置。有人能指点我应该寻找的方向吗？我已经检查了hive.properties文件，这看起来不错，我只是不

浏览 5提问于2017-10-12得票数 1

回答已采纳

2回答

在AWS EMR上配置Presto内存分配时出错

、、、

我真的希望在AWS EMR上的ETL管道中使用Presto，但是我在配置它以充分利用集群的资源时遇到了困难。这个集群只存在于这一个查询中，没有更多的，然后就会死掉。因此，我想通过增加query.max-memory-per-node和query.max-memory来获取每个节点的最大可用内存和一个查询。在配置集群时，我可以通过在AWS控制台中集群创建视图的“编辑软件设置”框中添加这些设置。但是Presto服务器没有启动，在server.log文件中报告一个IllegalArgumentException，表示每个节点的最大内存超过可用的堆空间(默认情况下，对于我的实例类型和用例来说，堆空间太

浏览 22提问于2017-05-24得票数 2

回答已采纳

3回答

无法将Tableau连接到emr上的预录

、、

我无法将Tableau与EMR集群上的presto连接起来。版本: Tableau 10，emr-5.3.0，Presto 0.157.1 我能够通过presto cli使用命令进行连接。 [hadoop@ip-172-xx-yy-zz scripts]$ presto-cli presto> use hive.poc; presto:poc> show tables; Table ... 但是，当我试图使用Teradata连接器从tableau连接时，我是无能为力的。因此，我得到了“目录未指定”的错误。但是，当检查在Presto接口()上可用的java错误跟踪时

浏览 9提问于2017-01-30得票数 0

1回答

如何将分区添加到在Amazon中运行的Presto中的分区表中？

、、、、

我在EMR5.19.0中运行Presto 0.212，因为AWS雅典娜不支持Presto支持的用户定义函数。我使用的是配置为使用胶水模式的EMR。我已经在S3中以正确的分区格式存在已存在的Parquet文件。最近的Presto版本似乎取消了创建和查看分区的能力。这就引出了一个问题:如何添加单独的分区？我可以在AWS中使用雅典娜控制台并运行MSCK REPAIR mytable;，从而正确地创建分区，然后我可以使用Presto或HUE成功地查询分区。但是，我如何在Presto中做到这一点呢？如果我在EMR主节点上的presto-cli中尝试这样做的话： use hive.default; I

浏览 1提问于2018-11-13得票数 1

回答已采纳

1回答

如何在气流中一次运行两次相同的dag

、、

我对气流完全陌生。我有一个要求，我必须运行两个电子病历作业。。目前，我有一个依赖于某些输入文件的python脚本，如果它存在，将触发一个EMR作业。我的新要求是，我必须有不同的输入文件(相同类型)，这两个文件将输入到emr作业，在这两种情况下火花将做相同的事情，但只有输入文件是不同的。 create_job_workflow = EmrCreateJobFlowOperator( task_id='some-task', job_flow_overrides=job_flow_args, aws_conn_id=aws_conn, emr_co

浏览 3提问于2020-09-28得票数 0

回答已采纳

1回答

通过emr启动配置的presto配置

、

我正试图通过我们的EMR启动配置JSON将presto部署到EMR。我已经决定了这个中建议的配置属性。我在启动配置中添加了以下预览属性 { "Classification": "presto-connector-hive", "Properties": { "hive.metastore.glue.datacatalog.enabled": "true", "hive.table-statistics-enabled": "true"

浏览 0提问于2018-08-30得票数 0

回答已采纳

1回答

为什么我们的presto查询运行时间会出现峰值？

、、、、

我们正在尝试调试为什么我们的presto查询运行时间在一天中会有很大的变化。我们看到了几个显着的峰值，一些在工作时间，一些在工作时间以外。我们使用的是EMR版本5.14和Presto版本0.194。我们的数据使用蜂窝创建的拼图文件存储在S3中。下图显示了同一查询在一段时间内使用Presto CLI的运行时间。任何关于我们应该关注什么或者什么可能导致这些峰值的想法/建议都将非常感谢。谢谢! ?

浏览 12提问于2019-03-16得票数 0

回答已采纳

0回答

对在配置单元中以orc格式创建且数据驻留在s3中的表执行presto-cli查询失败

、、

我设置了一个Amazon EMR实例，它包含1个主和1个核心(m4 Large)，具有以下版本详细信息: EMR : 5.5.0 Presto: Presto 0.170 Hadoop2.7.3 HDFS Hive 2.1.1元存储区我的Spark应用程序将ORC中的数据写到了亚马逊S3。然后，我在配置单元(create external table TABLE ... partition() stored as ORC location 's3a"//')中创建了表，并尝试从presto-cli进行查询，查询SELECT * from TABLE得到以下错误: qu

浏览 7提问于2017-06-15得票数 1

回答已采纳

1回答

传统的时间戳应该在Presto 0.220中工作吗？

、、

我遇到了一个问题，正确地阅读时间戳，没有任何自动转换的Presto上的电子病历。示例:在AWS Glue目录中，我有一个表，其中包含UTC时间中的时间戳列(数据类型为时间戳)。当他们在雅典娜询问时，他们会如愿以偿地回来。当在Presto中查询EMR (EMR5.26，Presto 0.220)时，会出现对不同时区的自动转换。 Presto在这里描述了禁用此行为的一种方法- 。 The legacy semantics can be enabled using the deprecated.legacy-timestamp config property. Setting it to true

浏览 0提问于2019-09-23得票数 0

回答已采纳

2回答

EMR没有检测到所有内存。

、、

我使用EMR 5.18运行火花任务。下面是设置：由于任何原因，EMR无法检测工作节点上的所有可用内存。我没有向EMR配置部分添加任何内容，这都是默认设置。知道是什么原因造成的吗？谢谢。编辑:关于yarn.nodemanager.resource.memory-mb的值。在UI中，它是28672，但在yarn-site.xml中，它是352768 以下是安装的应用程序列表：Hive 2.3.3, Pig 0.17.0, Hue 4.2.0, Spark 2.3.2, Ganglia 3.7.2, Presto 0.210, Livy 0.5.0, Zeppelin 0.8.

浏览 1提问于2019-08-02得票数 1

1回答

执行SELECT *时的StageStateMachine NullPointer查询引发错误

、、、

我正在将拼花文件从S3加载到我的Hive数据仓库，该数据仓库正在一台EMR机器中运行： Release: emr-5.1.0 Hadoop distribution: Amazon 2.7.3 Applications: Hive 2.1.0, Spark 2.0.1, Presto 0.152.3) 我可以使用以下方法轻松地查询蜂箱内部的结果： select * from table_a 但是，当我使用presto尝试相同的查询时，我会得到以下错误： ERROR remote-task-callback-57 com.facebook.presto.execution.StageStat

浏览 2提问于2016-11-17得票数 0

回答已采纳

1回答

EMR/PrestoDB上的多个MySQL编目

、、

通过使用EMR上的presto-connector-mysql配置选项，我能够在EMR上创建一个名为mysql的目录。但是，我想连接到多个mysql数据源。向/etc/presto/conf/catalog添加第二个数据源，然后执行restart presto-server是不完全正确的，因为虽然我可以正确地查询mysql数据源并显示第二个目录，但是在那里查询一个表会得到如下结果： Query 20170407_040307_00008_qjgse failed: No nodes available to run query 有办法重置整个集群吗？是否需要在所有节点上安装新目录？

浏览 0提问于2017-04-07得票数 1

回答已采纳

2回答

关于EMR -设置环境变量

、、

我在玩AWS EMR中内置的Presto。我想摆脱默认的寻呼机..。在Presto文档中写着：可以通过将环境变量PRESTO_PAGER设置为其他程序的名称(如more )或将其设置为空值以完全禁用分页来覆盖此行为。这可能很琐碎，但我不知道该怎么做，也找不到任何信息. 在presto的上下文中，我认为我所能做的就是运行SQL..谁有这方面的经验？

浏览 5提问于2016-02-21得票数 0

1回答

有没有开源的Presto ODBC驱动程序？

、、、

我正在寻找任何开源的Presto ODBC连接器来连接AWS EMR Presto到Power BI桌面。除了Simba驱动程序(量级)之外，我们还有其他开源的ODBC驱动程序吗？感谢您的帮助！我使用过Teradata presto odbc驱动程序，但不确定它是否只支持TD版本的presto。任何关于这方面的见解都会很棒。

浏览 126提问于2020-06-26得票数 2

2回答

避免在EMR群集中运行安装任务运行器步骤

、、、、

我希望你能帮助我。我正在尝试使用datapipeline创建安装了hadoop和spark的EMR集群。问题是这个EMR是私有的，所以它不能访问互联网来下载任何东西。在流水线中，我指出了用于下载所有.jars和依赖项(包括TaskRunner.jar )的引导操作。管道的EMRActivity将启动script.py { "name": "DefaultEmrActivity1", "maximumRetries" : 0, "runsOn": { "ref":

浏览 21提问于2021-05-07得票数 2

1回答

EMR Presto配置中的任务并发参数

、、

Presto task.concurrency参数位于哪个EMR目录中？

浏览 8提问于2020-11-07得票数 0

2回答

使用Terraform为EMR上的Presto/Spark启用胶水目录的选项

、、

我想知道在EMR.Could上运行时，是否支持为Presto/Spark启用aws glue目录在文档中找不到任何东西。

浏览 29提问于2019-02-28得票数 0

回答已采纳

1回答

EMR-Presto和Athena查询结果的差异

、、、

我已经连接了Glue目录到雅典娜和一个EMR实例(预置)。我试着在这两种情况下运行相同的查询，但得到的结果不同。EMR为0行，雅典娜为43行。使用left join、group by和count distinct查询非常简单。该查询如下所示： select t1.customer_id as id, t2.purchase_date as purchase_date, count(distinct t1.purchase_id) as item_count from table1 t1 left join table2 as t2 on t2.purchase_id=

浏览 1提问于2018-09-16得票数 1

回答已采纳

1回答

如何在EMR Presto服务上执行线程转储

、

通过转到Amazon EMR摘要页面，我只能看到如何使用hadoop用户连接到主节点的命令： ssh -i ~/data-abc.pem hadoop@ip-10-90-28-13.ec2.internal 通过对hadoop用户执行jps，我看不到presto jvm进程。当我使用ps -ef|grep presto查找java进程ID并执行jstack -l <PID>时，它给出了以下错误： Operation not permitted 那么，我如何才能真正转储presto线程，而不是Hadoop线程。

浏览 19提问于2020-10-17得票数 0

回答已采纳

2回答

AWS EMR Presto集群突然终止错误:由于Spot，作业流中的所有从属设备都已终止

、

我在使用AWS EMR PrestoDB时遇到了问题。我启动了一个集群，其中主节点作为协调器，核心节点作为工作节点。核心节点是spot实例。但是，主节点是按需的。在群集启动5周后，我收到了以下错误消息 Terminated with errorsAll slaves in the job flow were terminated due to Spot 是不是所有的slaves都被销毁了，集群本身也会被销毁？我看到了现货价格的历史记录，它没有达到我设定的最高价格。我已经做了什么？我已经检查了转储到s3的日志。我没有找到任何关于终止的原因的信息。它只是说 Failed to visit ..

浏览 45提问于2020-01-13得票数 0

回答已采纳

2回答

AWS EMR上的Presto Sandbox群集-添加连接器(catalog/.properties)

、、

我刚刚使用EMR在AWS上部署了一个Presto Sandbox集群。除了手动(ssh)创建属性然后重新启动集群之外，还有什么方法可以向我的Presto集群添加连接器吗？

浏览 2提问于2016-05-15得票数 0

1回答

Presto如何收集运行时内存？

我正在学习Presto，我对Presto的运行时资源管理很感兴趣。我了解到ClusterMemoryManager会定期检查内存，但我对运行时内存的收集感到困惑。 for (QueryExecution query : queries) { long bytes = query.getUserMemoryReservation(); DataSize sessionMaxQueryMemory = getQueryMaxMemory(query.getSession()); long queryMemoryLimit =

浏览 0提问于2018-05-10得票数 1

2回答

PrestoDB电子病历服务器拒绝连接

、、、

我在AWS中设置了一个EMR，安装了PrestoDB，之前我可以使用PrestoDB进行查询，但是在重新启动之后，它就停止工作了，并开始给出以下错误：“运行错误命令:服务器拒绝连接:服务器拒绝连接:我查看了所有配置文件，似乎没有什么问题。我还交叉检查了蜂巢配置文件，但没有取得任何成功。任何遇到过类似问题的人都能帮我吗。

浏览 7提问于2015-11-06得票数 5

回答已采纳

1回答

presto蜂窝转移连接

、

在我的一个应用程序中，我一直在使用presto和hive-metastore从s3查询数据。为了在生产环境中配置hive-metastore (我将在docker上分别部署presto和hive )，我只想知道，presto是为并发查询创建多个hive-metastore连接，还是为所有并发查询创建单个hive - metastore连接？例如，假设在我的应用程序中运行100个实例查询，那么是使用hive-metastore创建100个连接，还是只创建一个连接并对所有查询使用相同的连接？我对所有这些东西都是新手，所以可能会遗漏一些明显的东西。提前谢谢。

浏览 45提问于2019-03-25得票数 1

2回答

AWS EMR -如何将文件复制到所有节点？

有没有办法通过EMR命令行将文件复制到EMR集群中的所有节点？我正在与presto工作，并已创建了我的自定义插件。问题是我必须在所有的节点上安装这个插件。我不想登录到所有节点并复制它。

浏览 0提问于2020-10-20得票数 0

4回答

雅典娜查询S3数据的备选方案

、、、、

我有大约300 GB的 of data on S3。让我们说，这些数据看起来像： ## S3://Bucket/Country/Month/Day/1.csv S3://Countries/Germany/06/01/1.csv S3://Countries/Germany/06/01/2.csv S3://Countries/Germany/06/01/3.csv S3://Countries/Germany/06/02/1.csv S3://Countries/Germany/06/02/2.csv 我们正在对数据做一些复杂聚合，因为一些国家的数据很大，而一些国家的数据很小

浏览 1提问于2019-08-01得票数 3

回答已采纳

1回答

减少星火阶段的任务数

、、、、

我正在aws中运行一个spark作业，它从s3读取大约100 k小JSON文件，执行一些转换，并将结果写回s3。我已经将洗牌分区和默认并行性设置为20，执行器内存设置为4GB。但是，对于NativeMethodAccessorImpl.java，的javaToPython (我理解为写入s3的UI )阶段之一，有将近2.7k个任务，输入数据大小< 1MB。对于使用收集操作的阶段，相同的行为。我不明白为什么？我在这里错过了什么？我还测试了应用程序，减少了应用程序中的分区数量(通过合并)，但似乎没有什么改变。我运行的是火花放电2.4.7和EMR-5.33.1

浏览 13提问于2022-02-10得票数 0

1回答

电子病历上的检查点s3p链路

、、

在EMR的flink中，我遇到了s3p检查点的问题。在创建EMR集群时，我在Presto中有一个滴答，并按照的指示添加了jar文件。但是，当s3p在flink中检查点时，它仍然报告由: org.apache.flink.core.fs.UnsupportedFileSystemSchemeException:导致的无法为方案“s3p”找到文件系统实现。Flink通过以下插件直接支持该方案: flink-s3-fs-presto。请确保每个插件都驻留在插件目录中自己的子文件夹中。有关详细信息，请参阅。如果您想要为该方案使用Hadoop文件系统，请将该方案添加到Configurationfs

浏览 1提问于2020-11-03得票数 0

回答已采纳

1回答

Presto不从配置单元元数据库返回行

、、

我对AWS EMR非常陌生。我已经启动并运行了Hive，并且在S3中查询外部表没有任何问题。我现在已经在EMR集群上安装了Presto，它似乎已经启动并运行，可以读取Hive元数据库。但是，我运行的每个查询都返回列标题，但实际上不返回任何列(下面的查询)。 presto:default> select count(*) from patrequests; _col0 ------- 0 (1 row) Query 20171113_163811_00033_vdw6c, FINISHED, 1 node Splits: 17 total, 17 done (100.00%)

浏览 0提问于2017-11-14得票数 1

1回答

谷歌云DataProc是否提供了一个带有默认JVM和YARN设置的网页？

、

作为Apache Hadoop on AWS Elastic-Map-Reduce (EMR)服务的前用户，我习惯于从静态页面here1获取有关EMR集群中各种大小的VM的默认部署设置的信息。这些设置包括JVM最大内存大小、YARN调度器最小/最大内存分配、映射和减少最大内存等。是否有类似的网页包含Google Cloud (GCP) DataProc服务的相应信息？我找过了，但找不到... 1

浏览 21提问于2019-01-31得票数 0

1回答

齐柏林飞艇装载外部脂肪罐时的java.lang.NoSuchMethodError

、、

在尝试运行使用使用FAT JARs (共享一些公共submodules)构建的sbt assembly的代码时，我遇到了一个令人讨厌的java.lang.NoSuchMethodError JAR是建立在EMR本身上的(而不是从其他环境上传的)，所以库/ Spark / Scala等中的版本冲突是不可能的。我的EMR环境：发布标签：emr-5.11.0 Hadoop发行版：Amazon2.7.3 应用：Spark2.2.1，齐柏林飞艇0.7.3，Ganglia 3.7.2，Hive2.3.2，Livy 0.4.0，Sqoop1.4.6，Presto 0.187

浏览 0提问于2018-01-18得票数 0

1回答

任务之间的气流锁定，这样一次只能运行一个并行任务？

、

我有一个DAG，它有三个任务流(licappts、agent、agentpolicy)：为了简单起见，我将这三种不同的流称为。流是独立的，因为仅仅因为代理策略失败并不意味着其他两个(liceappts和agent)应该受到其他流失败的影响。但是对于sourceType_emr_task_1任务(即licappts_emr_task_1、agents_emr_task_1和agentpolicy_emr_task_1)，我一次只能运行其中一个任务。例如，我不能同时运行agents_emr_task_1和agentpolicy_emr_task_1，尽管它们是两个相互不关心的独立任务

浏览 0提问于2018-07-30得票数 5

回答已采纳

1回答

将数据插入KMS加密强制存储桶时，快速执行S3 AccessDenied

、、、、

我在亚马逊网络服务的s3上有一个存储桶，它强制所有对象都被KMS加密。我在emr-5.2.1上运行Presto 我在s3上有外部表(没有数据)。当我使用 INSERT INTO hive.s3.new_table SELECT * FROM src_table 我收到AccessDenied错误。我测试了几个不同的选项，并获得了支持，但没有运气。如果我从存储桶中删除策略，Presto就可以正常工作，但在s3上创建的文件不会加密。在读取加密的外部s3表或在hdfs本地创建它们时，Presto没有任何问题。我不能允许未加密的数据。策略示例： { "Version":&#

浏览 4提问于2017-01-25得票数 0

1回答

达美湖+ ADSL + Presto数据库

、、、

Databricks刚刚发布了。我是Azure的新手，该链接多次提到EMR和雅典娜，但缺少Azure关键字。所以我不得不问一个愚蠢的问题：我说得对吗，Presto集成只适用于AWS，因为Azure没有Presto PaaS？数据库是否计划在最近的将来进行达美湖和Synapse/Polybase的集成？

浏览 2提问于2020-01-10得票数 0

回答已采纳

1回答

presto生产集群+集群中最小的预售工人机器

、、

我们要在流变机上建立预生产集群。这台机器中有一台是预售协调员，其余的都是预售工人。最低限度的生产前工人的建议是什么？关于预告片的更多细节： Presto协调器是负责解析语句、规划查询和管理Presto工作者节点的服务器。它是Presto安装的“大脑”，也是客户端连接以提交语句以供执行的节点。每个Presto安装都必须在一个或多个Presto工作人员旁边有一个Presto协调员。为了进行开发或测试，可以将Presto的单个实例配置为执行这两个角色。协调器跟踪每个工作人员的活动，并协调查询的执行。协调器创建涉及一系列阶段的查询的逻辑模型，然后将其转换为运行在Presto工作人员集群上的一

浏览 0提问于2020-05-13得票数 0

1回答

如何在EMR任务/从节点上安装hive？

、、、

我让hive在EMR主节点上运行，但我需要在EMR任务/从节点上运行hive命令行。有谁知道怎么做吗？谢谢!

浏览 0提问于2017-03-21得票数 1

3回答

Presto配置

、

当我设置一个Presto集群并尝试进行一些性能调优时，我想知道是否有更全面的Presto配置指南，例如，我如何控制Presto工人可以使用多少CPU核心。如果我在一台服务器上启动多个presto工作进程(在这种情况下，我不需要专用服务器来运行协调程序)，这是不是很好的做法？此外，我不太理解task.max-memory参数。presto worker会为一个查询启动多个任务吗？如果是，也许我可以结合使用task.max-memory和-Xmx JVM参数来控制并行度？提前谢谢。

浏览 5提问于2013-11-18得票数 2

2回答

Prestodb (AWS EMR)加载分区元数据

、

我用的是Prestodb v0.238.3的AWS EMR集群，一切都很好，除了一件事--当我调用一个函数来收集分区的数据时，它总是失败。我尝试通过Datagrip (+ jdbc驱动程序)和在集群的主节点上通过presto-cli执行这个命令-没有区别 CALL system.metadata.sync_partition_metadata('test', 'table_test', 'FULL') [29] Query failed (#20201124_193910_00688_37bpw): Procedure not registe

浏览 6提问于2020-11-25得票数 0

1回答

在AWS EMR上执行Presto查询时没有工作进程并行

、

我已经在AWS EMR上设置了一个presto集群，从S3存储桶中查询。当我运行查询时，我正在探索集群概述指标，我注意到即使有2个可用的工作节点，也没有工作并行。我想知道为什么会这样。

浏览 13提问于2019-07-11得票数 1

1回答

PrestoDB - Parquet文件存储在哪里？

我已经在旁安装了AWS EMR。我用一个蜂巢表在Presto中创建了一个表。 CREATE TABLE temp_table WITH (format = 'PARQUET') AS SELECT * FROM <hive_table>; Parquet文件存储在哪里？或者，在执行CREATE TABLE语句时，任何文件存储在哪里？

浏览 3提问于2016-08-22得票数 0

回答已采纳

1回答

雅典娜地理空间SQL连接从未完成

、、、

基于的非常基本的地理空间连接每次都会超时。表polygons包含340K个多边形，而points包含具有纬度/经度对(和ID)的5K行。这两个文件在S3中都是单独的.csv文件。查询： SELECT poly.geometry, p.id FROM polygons as poly CROSS JOIN points as p WHERE ST_CONTAINS (ST_POLYGON(poly.geometry), ST_POINT(p.lon, p.lat)); 上面的SQL查询永远不会在默认的30分钟Athena查询时间限制内完成。我发现大型数据集上的普通雅典娜查询性能相当高，但我

浏览 14提问于2019-11-22得票数 0

回答已采纳

1回答

在长时间运行的EMR集群上建立AWS数据管道

、、

如果我想要长时间运行EMR集群，然后要在该集群上设置数据管道，我如何才能做到呢？我必须在这个EMR集群上安装任务运行程序吗？或者任务运行程序会被预先安装？或者还有其他简单的方法？

浏览 0提问于2017-02-12得票数 0

回答已采纳

1回答

Flink kubernetes部署-如何从Hashicorp提供S3凭据？

、

我正试图在官方的帮助下将Flink流处理器部署到Kubernetes集群。Flink应用程序还使用Minio作为其状态后端。在我试图以下列方式提供Hashicorp Vault的凭据之前，一切都很好： apiVersion: flink.apache.org/v1beta1 kind: FlinkDeployment metadata: name: flink-app namespace: default spec: serviceAccount: sa-example podTemplate: apiVersion: v1 kind: Pod meta

浏览 20提问于2022-09-02得票数 3

2回答

FileAlreadyExistsException发生在我在Amazon上用Hive引擎从Presto导出数据时

、、、、

我尝试使用Presto将数据从S3桶导出到其他S3桶，比如ETL，但是在导出数据时发生了FileAlreadyExistsException。如何使用Presto导出数据？环境 emr-4.3.0 蜂箱1.0.0 普雷托-沙盒0.130 错误我尝试了以下操作： $ hive hive> CREATE EXTERNAL TABLE logs(log string) -> LOCATION 's3://foo-bucket/logs/'; hive> CREATE EXTERNAL TABLE s3_export(log strin

浏览 5提问于2016-02-03得票数 1

回答已采纳