从红移频谱获取"Disk Full“错误_从stl_load_commits获取红移复制命令的表名_正在将数据从S3复制到红移，相同的区域，但我收到错误 - 腾讯云开发者社区

amazon-web-services、amazon-redshift、amazon-redshift-spectrum

我面临着在红移频谱上频繁Disk Full error的问题，因此，我不得不反复扩容集群。缓存似乎会被删除。理想情况下，我希望向上扩展以保持缓存，并找到一种方法来了解查询需要多少磁盘空间。有没有什么文档谈到了红移频谱的缓存，或者他们正在使用相同的机制来进行红移？编辑:应Jon Scott的要求，我正在更新我的问题 SELECT p.postcode, SUM(p.like_count), COUNT(l.id) FROM post AS p INNER JOIN likes AS l ON l.postcode = p.postcode GR

浏览 26提问于2019-06-26得票数 0

回答已采纳

1回答

红移光谱比雅典娜慢得多？

amazon-s3、tableau-api、amazon-athena、amazon-redshift-spectrum

我们的数据以没有分区的JSON形式存储在S3中。直到今天，我们只使用雅典娜，但现在我们尝试红移光谱。我们正在运行相同的查询两次。一次使用红移光谱，一次使用雅典娜。两者都连接到S3中的相同数据。使用红移频谱，这个报告需要永远(超过15分钟)的运行和使用雅典娜，它只需要10秒的运行。我们在aws控制台中运行的两种情况下的查询如下： SELECT "events"."persistentid" AS "persistentid", SUM(1) AS "sum_number_of_reco" FROM "analyti

浏览 2提问于2019-11-27得票数 0

回答已采纳

3回答

InternalError_：频谱扫描错误。S3到红移复制命令

python、amazon-s3、amazon-redshift、parquet

我正在尝试使用copy命令将一些数据从S3存储桶复制到红移表中。该文件的格式为PARQUET。当我运行执行复制命令查询时，我得到InternalError_：频谱扫描错误。这是我第一次尝试从拼图文件中复制。如果对此有解决方案，请帮助我。我在python中使用boto3。

浏览 3提问于2020-03-30得票数 5

回答已采纳

5回答

雅典娜vs红移光谱

amazon-web-services、amazon-redshift、amazon-athena、amazon-redshift-spectrum

我在评估雅典娜和红移光谱。两者都服务于相同的目的，频谱需要一个适当的红移集群，而雅典娜是纯粹的无服务器的。雅典娜使用Presto，而Spectrum使用其Redshift的引擎雅典娜或红移光谱有什么特别的缺点吗？使用Athena或Spectrum有什么限制吗？

浏览 3提问于2018-05-09得票数 28

1回答

从两个地点选择数据

amazon-web-services、amazon-redshift、amazon-redshift-spectrum

我需要在S3上使用红移光谱的数据。然而，我有两个不同的文件夹(2018 / 2019)，我需要拿走。在“位置”部分，我该如何兼顾这两个问题？现在我有： create external table test_spectrum.full_events_test2 ( timestamp bigint, device struct<locale:struct<country:varchar, language:varchar>, platform:struct<name:varchar>>, ) row format serde 'org

浏览 1提问于2019-07-17得票数 1

回答已采纳

1回答

选择不同的性能不一致

sql、amazon-redshift

在单个表上有一个不同的查询。 select distinct d, e, f, a, b, c from t where a = 1 and e = 2; 在cols a，b，c中的不同值的个数高(高列基数)，而cols d，e，f是低基数列。我的数据是S3格式的ORC格式，我在雅典娜和红移谱中有外部表指向同一个文件。当上面的查询在雅典娜中运行时，它会在几秒内返回，而在红移谱中则需要几分钟。但是当我移到选择列表的末尾时，它在红移光谱中也能很好地工作。这种情况只发生在这个特定的列中，我的意思是在结尾移动d或e不会有任何区别，即它们运行的时间更长。col和其他列一样是varchar列，该列的最

浏览 0提问于2019-04-05得票数 0

4回答

是否可以使用数据库迁移服务(DMS)将数据移动到Redshift中？

amazon-web-services、amazon-redshift、aws-dms、amazon-redshift-spectrum

我有我的数据在MySQL数据库中，并希望将其移动到红移。我可以使用数据库迁移服务(DMS)来完成此任务吗？还有别的选择吗？我是否应该简单地考虑使用Amazon Redshift Spectrum而不移动数据？

浏览 26提问于2020-06-15得票数 1

1回答

红移光谱要读取的文件的数据格式是什么？

amazon-web-services、amazon-redshift、dataformat、amazon-redshift-spectrum

我一直在读“红移光谱”，有些事情我就是不明白。我知道红移频谱将从存储在S3中的文件中读取数据，但是我需要在S3中存储的实际文件是什么？是SQL语句吗？我可以把它放任何格式吗？假设我运行一个电子商务站点，我是否为每个订单创建一个文件？或者是一个文件，里面有所有的命令，并一直附加在上面？我还需要一个扁平的格式吗？或者我可以用这些文件中的数据做更多的NoSQL类型的事情吗？每次我查询时，它是否仍然从文件中获取数据？意思是，假设我运行查询1.更新现有文件。并再次运行查询。我会得到不同的结果吗？或者这些数据已经以某种方式被拉进了光谱？

浏览 1提问于2019-11-26得票数 0

4回答

红移频谱的性能问题

amazon-web-services、amazon-s3、amazon-redshift、amazon-redshift-spectrum

我使用的是红移频谱。我创建了一个外部表，并在S3上上传了一个包含大约550万条记录的csv数据文件。如果在这个外部表上执行查询，大约需要15秒，而如果我在Amazon redshift上运行相同的查询，我在大约2秒内就会得到相同的结果。当AWS声称它是非常高性能的平台时，这种性能滞后的原因可能是什么？请使用spectrum建议相同性能的解决方案。

浏览 24提问于2017-07-06得票数 2

回答已采纳

1回答

如何忽略红移复制命令中的错误

amazon-web-services、amazon-redshift

我有拼板文件，需要加载到红移使用复制命令。由于频谱扫描错误，命令失败。因此，如果有任何导致错误的情况，我希望忽略该文件。是否有任何方法可以忽略记录/最大错误选项，在红移复制命令，为拼板文件加载？ COPY <targettablename> from '<s3 path>' iam_role 'arn:aws:iam::1232432' format as parquet maxerror 250 错误：-基于拼花的副本不支持MAXERROR参数

浏览 12提问于2022-04-10得票数 2

1回答

如何将AWS胶表结构复制到AWS红移

amazon-web-services、amazon-s3、amazon-redshift、aws-glue、amazon-redshift-spectrum

我在不使用爬虫的情况下使用AWS Glue创建了新的数据库和表结构，并且可以做同样的事情，我的意思是使用爬虫创建表结构。这不是问题，我想要的是基于AWS表元数据在AWS中创建相同的表结构。我用Python手工完成了Django，得到了表的元数据，并创建了"CREATE table .“命令并执行。我已经有了另一种解决方案。--我们可以从AWS端或者使用AWS (如Boto3 )--来做这件事吗？我不需要表中的任何数据，只想在AWS红移中创建空表。这个是可能的吗？我还检查了AWS红移光谱。如果我可以在AWS中创建这个表，那么我可以使用频谱命令从S3或任何其他资源中获取数据。所以我先要

浏览 4提问于2020-03-12得票数 2

回答已采纳

2回答

什么时候在红移数据仓库中使用红移谱

amazon-web-services、amazon-redshift、delta-lake、spectrum、amazon-redshift-spectrum

我仍然是红移服务的新手，对什么时候使用或者把什么数据放进频谱很困惑。假设我在Redshift上有星型模式数据仓库，是否应该将事实表或暗淡表放入频谱(来自s3的外部表)以进行存储优化？或者数据仓库通常有不同的层，例如:着陆、登台或数据库。如果我们把其他层的数据放到频谱中，只会将星型数据留在Redshift中。而且，由于S3中的数据仅被附加，我们是否需要安装apachi hudi或delta lake来使用Redshift频谱？我发现了一篇aws文章:在下面陈述，但仍然不清楚。几个好的用例如下： andaggregation-intensive查询可以使用分区剪枝和谓词下推的选择性查询，

浏览 9提问于2022-10-08得票数 0

2回答

自动归档aws-红移表的最佳方法

amazon-web-services、amazon-s3、amazon-redshift、amazon-data-pipeline、data-pipeline

我有一个大表的红移，我需要自动化的过程归档每月的数据。目前的办法如下(手册)：将红移查询结果卸载到s3 创建新的备份表将文件从s3复制到redshift表从原始表中删除数据我需要让这个方法自动化，使用aws数据管道是一种好方法吗？请提出任何其他有效的方法和赞赏的例子。谢谢你的帮助！

浏览 0提问于2018-03-22得票数 0

2回答

us-west-1的Spectrum和us-west-2的Glue可能吗？

amazon-s3、amazon-redshift、aws-glue、amazon-redshift-spectrum

我正在使用us-west-1中的红移集群( Redshift Cluster ) s3文件的位置在us-west-1 (NCAL)，胶水数据目录在us-west-2 (俄勒冈州) 当我尝试查询表时 select count(*) from spectrum_schema.table_name; 我得到了下面的错误。 [Code: 500310, SQL State: XX000] [Amazon](500310) Invalid operation: The specified region 'us-west-1' is invalid. Details: -------

浏览 1提问于2018-01-11得票数 0

2回答

查询结构列时面临访问被拒绝

amazon-web-services、amazon-redshift、amazon-redshift-spectrum

我可以使用红移光谱来查询我的表。但是，当我试图访问一个定义为struct的列时，我得到了以下错误： ERROR: Spectrum Scan Error: S3ServiceException:Access Denied,Status 403,Error AccessDenied 你知道为什么会发生这种事吗？

浏览 6提问于2021-01-06得票数 1

3回答

雅典娜对红移的拼花

apache-spark、amazon-s3、amazon-redshift、parquet

我希望外面的人能帮我解决这个问题。我目前正在从事一个数据管道项目，我目前的两难处境是与雅典娜一起使用拼板，还是将其存储到Redshift。 2种情况:第一， EVENTS --> STORE IT IN S3 AS JSON.GZ --> USE SPARK(EMR) TO CONVERT TO PARQUET --> STORE PARQUET BACK INTO S3 --> ATHENA FOR QUERY --> VIZ 第二, EVENTS --> STORE IT IN S3 --> USE SPARK(EMR) TO STORE DATA

浏览 2提问于2019-03-08得票数 4

1回答

无法从AWS Redshift访问AWS雅典娜表

amazon-redshift、amazon-athena

我试图访问一个现有的AWS雅典娜桌兄弟会AWS红移。我尝试在AWS Redshift控制台中创建外部模式(指向AWS Athena DB)。它成功地创建了外部模式，但没有显示雅典娜DB的表。下面是使用的代码。 CREATE EXTERNAL SCHEMA Ext_schema_1 FROM DATA CATALOG DATABASE 'sample_poc' REGION 'us-east-1' IAM_ROLE 'arn:aws:iam::55276673986:role/sample_Redshift_Role'; 少数观察. 即使我指

浏览 0提问于2019-04-30得票数 5

1回答

红移频谱性能vs雅典娜

amazon-athena、amazon-redshift-spectrum

我在S3中有一个存储了拼图文件并按日期划分的存储桶。使用以下查询： select count(1) from logs.logs_prod where partition_1 = '2019' and partition_2 = '03' 直接在Athena中运行该查询，它在不到10秒的时间内执行。但当我在Redshift中运行相同的查询时，它需要3分钟以上。它们都返回相同的正确值，在本例中，该分区中的行数少于8万行。我使用AWS Glue作为Athena和Redshift的元数据存储。 Redshift的查询计划如下： QUERY PLAN XN

浏览 32提问于2019-04-12得票数 2

2回答

在写到Redshift DW之前，如何从S3桶中转换数据？

amazon-s3、amazon-redshift、etl、data-warehouse

我在红移中创建了一个(现代的)数据仓库。我们所有的基础设施都托管在亚马逊。到目前为止，我已经将DMS设置为从业务数据库的某些表( EC2上的Server，而不是RDS)中摄取数据(包括更改的数据)，并将其直接存储到S3。现在，我必须从S3中转换和充实这些数据，然后才能将其写入Redshift。我们的DW有一些事实和维度表(星型模式)，因此，假设一个客户维度，它不仅应该包含客户基本信息，还应该包含地址信息、城市、州等。这些数据分布在我们的业务数据库中的几个表中。因此，我的问题是，我不清楚如何查询S3暂存区域，以便连接这些表并将其写入红移DW。我想要使用AWS服务，如Glue，Kinesis等

浏览 1提问于2020-02-11得票数 2

回答已采纳

2回答

使用没有地理线索的红移:为什么不允许我指定如何手动更改/设置屏幕颜色温度？

debian、software-rec、redshift、geoclue

我想在睡觉前用红移来改变屏幕的颜色温度。现在看起来红移需要我安装地质线索。但我不想安装那个包裹。此外，我还想指定手动更改屏幕颜色的时间。要么手动设置我的位置，要么简单地指定它应该开始和结束调光的时间。有没有办法改变我的屏幕颜色温度，就像用其他工具，或者用一些技巧？我还感兴趣的是，为什么红移是不可能的，即使不管它是从地理线索位置数据获取数据，还是通过手动输入的数据。我用Debian 9和KDE。

浏览 0提问于2017-09-17得票数 1

回答已采纳

1回答

AWS红移:如何存储大小大于100 K的文本字段

amazon-web-services、amazon-redshift

我有一个文本字段，在拼花文件最大长度141598。我正在加载拼花文件，以红移，并得到错误，而加载时，最大的一个varchar可以存储是65535。是否还有其他数据类型可供我使用或另一种选择？加载时出错： S3 Query Exception (Fetch). Task failed due to an internal error. The length of the data column friends is longer than the length defined in the table. Table: 65535, Data: 141598

浏览 1提问于2019-01-03得票数 2

1回答

从Azure ADF IR链接服务连接到AWS RedShift (已启用SSL)

azure、ssl、amazon-redshift、azure-data-factory、azure-integration-runtime

我正在尝试从Azure数据工厂链接服务连接到亚马逊网络服务RedShift，在配置红移凭据后，它给了我"Connection Timeout Exception"。我知道问题在哪里，我需要一个帮助来配置连接到亚马逊网络服务RedShift的ADF链接服务SSL参数。通过设置SSL = True和SSL Mode=verify-full，我可以使用DBeaver从托管在我们的Azure环境中的虚拟机连接到AWS RedShift。 ? 我需要关于如何从亚洲开发基金会链接服务传递此SSL信息的帮助，以便建立与RedShift的连接。 ?

浏览 24提问于2021-05-06得票数 0

回答已采纳

1回答

本地模拟Redshift和S3的首选方法

mocking、airflow、localstack

问题我有一个希望在本地运行的管道，它执行以下操作：从Redshift下载表到S3桶(基本上是) 将表从S3桶复制到另一个Redshift (基本上是) 问题是否可以使用QA红移，然后用LocalStack将这些文件复制到本地模拟的PosgreSQL，最后再使用模拟的PosgreSQL进行第二次红移？这种方法会有更多的利大于弊吗？ Note：我不想用LocalStack在本地嘲笑Redshift，因为很明显红移服务仅模拟红移管理端点(创建集群等)而不是实际的查询引擎。

浏览 9提问于2022-03-16得票数 1

5回答

将数据文件从亚马逊Redshift卸载到S3格式的亚马逊Parquet

amazon-redshift、parquet、amazon-athena、amazon-redshift-spectrum

我想卸载数据文件从亚马逊红移到亚马逊S3的阿帕奇帕奎特格式，以便查询S3上的文件使用红移光谱。我已经探索了所有的地方，但是我找不到任何关于如何将文件从Amazon Redshift卸载到使用Parquet格式的S3的东西。这个功能是否还不受支持，或者我找不到任何关于它的文档。有没有做过这方面工作的人可以分享一些关于这方面的信息？谢谢。

浏览 0提问于2018-02-08得票数 10

2回答

将位于S3的CSV列数据与红移表列数据进行匹配

python、python-3.x、amazon-s3、amazon-redshift

我仍然是aws生态系统的新手，并且在AWS的某些组件上做POC。我必须将CSVs数据与红移表数据进行匹配。谁能告诉我在哪里我可以得到一个如何执行上面的想法。提前谢谢。

浏览 1提问于2020-06-28得票数 1

1回答

将拼花文件复制到具有逗号分隔数据的Redshift中的错误

sql、amazon-web-services、amazon-s3、amazon-redshift

我试图将位于S3中的拼花文件复制到Redshift，但由于一列中有逗号分隔的数据，它失败了。有谁知道如何在地板文件中处理这样的场景吗？文件中的Parquet数据示例 "column_1" : "data1" "column_2" : "data2" .... "column_16" : "test1, test2" 特定列中的数据以逗号分隔为"test1，test2“。红移复制命令 COPY schema.table_name FROM 's3://path/to/parquet

浏览 10提问于2022-11-29得票数 0

2回答

使用火花红移插入红移

apache-spark、amazon-redshift、amazon-redshift-spectrum

我正在尝试从S3 (拼花文件)中插入红移数据。通过SQLWorkbench完成它，600万行需要46秒。但通过连接器的火花红移，它需要大约7分钟。我正在尝试使用更多的节点，并得到相同的结果。有任何建议来改善使用火花红移的时间吗？星火中的代码： val df = spark.read.option("basePath", "s3a://parquet/items").parquet("s3a://parquet/items/Year=2017/Month=7/Day=15") df.write .format("com.

浏览 0提问于2018-02-07得票数 3

回答已采纳

1回答

如何将Amazon表直接复制到中？

amazon-web-services、amazon-s3、amazon-redshift、amazon-athena

我在S3中有一些JSON文件，我能够从这些数据文件在Athena中创建数据库和表。已经完成了，我的下一个目标是将创建的表复制到中。在Athena中还有其他表，我是在这些数据文件的基础上创建的。我的意思是，我使用S3中的数据文件创建了三个表，后者使用这3个表创建了新的表。因此，目前我有5个不同的表，它们希望在Amazon中创建数据或不包含数据。我在Amazon 中检查了命令，但是 Athena没有复制命令。这是可用的清单。从亚马逊S3复制亚马逊电子病历复印本从远程主机(SSH)复制从亚马逊DynamoDB复制如果没有其他解决方案，我计划根据Athena中新创建

浏览 0提问于2020-03-09得票数 1

回答已采纳

2回答

跳过AWS Redshift外部表中的标题行

amazon-web-services、amazon-redshift、amazon-redshift-spectrum

我在S3中有一个文件，其中包含以下数据： name,age,gender jill,30,f jack,32,m 以及使用查询该数据的红移 create external table spectrum.customers ( "name" varchar(50), "age" int, "gender" varchar(1)) row format delimited fields terminated by ',' lines terminated by \n' stored as textfile locat

浏览 0提问于2017-07-12得票数 4

回答已采纳

1回答

AWS数据湖

excel、amazon-web-services、amazon-s3、amazon-athena、data-lake

您需要使用胶水摄取excel和其他专有格式吗?还是允许胶水在您的数据湖中爬行s3桶以使用这些数据格式？我已经浏览过"“文档，我不得不绞尽脑汁地想要把数据输入湖里。我有一个数据提供程序，它以excel和access文件的形式存储在他们的系统中。基于流程流，他们会将数据上载到提交s3桶中，这将引发一系列操作，但没有将数据转换为与其他工具一起工作的格式。使用这些文件是否需要对在桶中提交的数据使用胶水，还是有其他方法使这些数据可用于其他工具，如雅典娜和红移光谱？感谢你在这个话题上所能提供的任何启示。 -Guido

浏览 4提问于2017-09-21得票数 2

回答已采纳

3回答

数据在红移外部表上显示为null，而在雅典娜上工作。

sql、amazon-redshift、amazon-athena、amazon-redshift-spectrum

因此，我试图对红移光谱运行以下简单查询： select * from company.vehicles where vehicle_id is not null 并返回0行(表中的所有行都为null)。但是，当我在雅典娜上运行相同的查询时，它可以很好地工作并返回结果。试过msck修复，但雅典娜和红移都使用相同的亚稳态，所以这不重要。我也没看到任何错误。文件的格式是orc。 create表查询是： CREATE EXTERNAL TABLE 'vehicles'( 'vehicle_id' bigint, 'parent_id' big

浏览 0提问于2018-08-30得票数 3

回答已采纳

1回答

将大数据从vertica迁移到红移的最佳方法是什么？

amazon-web-services、vertica、amazon-redshift

我们在AWS上托管了vertica，数据库的总大小为500 db。那么，将数据从vertica迁移到红移的最快方法是什么？一种方法是将vertica数据导出到S3 将数据从S3加载到红移。有什么更好的方法吗？

浏览 3提问于2013-10-03得票数 1

回答已采纳

1回答

如何将VPC子网中的EMR连接到EC2-经典的红移实例？

amazon-redshift、amazon-emr、amazon-vpc

我们有一个红移集群，不是在VPC中的，我一直试图从VPC中的EMR集群(连接互联网网关)连接到它，到目前为止没有运气。我想知道是否有可能做到这一点。注意-我已经尝试在VPC公共子网中启动一个新的红移群集，并且能够从同一个子网中的EMR连接到它。

浏览 0提问于2020-08-05得票数 0

回答已采纳

1回答

将数据从S3存储桶复制到红移表时，我想存储文件夹名称

amazon-redshift

我正在尝试将数据从S3存储桶加载到红移表中，表中有一列作为源id，我想将源文件所在的文件夹名称存储到该列中。实际上我在S3存储桶中有多个文件夹，在每个文件夹中我有一个文件，并且我使用redshift中的复制命令来移植同一个表中的所有文件，所以为了识别数据来自哪个文件夹，所以我需要将文件夹名和数据一起存储到Redshift表中，我在表中有单独的列作为源id。有人能帮我吗？

浏览 0提问于2018-03-26得票数 0

3回答

隧道到红移集群

amazon-web-services、amazon-ec2、amazon-redshift、ssh-tunnel、tunnel

我是个红移新手。目前，我可以创建一个红移集群并通过SQL Workbench连接它，但我期待着从我的MAC终端通过隧道连接我的红移集群来执行ssh。我做了一些研究，能够创建一个具有相同私有网络ID和子网组的ec2实例，我正在使用该实例创建我的红移集群。我已经在我的ec2实例上安装了psql。当我使用psql命令连接到redshift时，我不能理解我哪里出错了： psql -h my redshift endpoint -p 5439 -d database name -U user -c " my query " 它给我错误psql:无法将主机名"my redshift

浏览 2提问于2018-11-19得票数 3

1回答

如何将嵌套的Avro字段作为单个字段复制到Redshift？

amazon-redshift、avro、jsonpath

我有以下记录的Avro模式，我想向Redshift发出一份副本： "fields": [{ "name": "id", "type": "long" }, { "name": "date", "type": { "type": "record", "name": "MyDateTime", "namespace"

浏览 2提问于2018-09-25得票数 1

1回答

使用红移频谱查询蜂窝视图

hive、amazon-redshift、amazon-redshift-spectrum

我正在尝试使用红移频谱查询配置单元视图，但它给出了以下错误： SQL Error [500310] [XX000]: [Amazon](500310) Invalid operation: Assert Details: ----------------------------------------------- error: Assert code: 1000 context: loc->length() > 5 && loc->substr(0, 5) == "s3://" - query:

浏览 22提问于2020-03-31得票数 3

回答已采纳

3回答

我该怎么杀红移？

process、kill、system-monitor、redshift

我用apt-get安装了红移。我从一个终端窗口开始，然后不小心把终端给弄坏了。红移并没有停止自己的运行。我的屏幕肯定还在红移的影响下。我打开Linux系统监视器，却找不到任何我认为是红移的东西。当然不是所谓的红移。那我该怎么杀红移呢？

浏览 0提问于2017-10-04得票数 8

回答已采纳

1回答

将数据从关系数据库传输到S3时，关系是否会保留？

amazon-s3、relational-database、amazon-rds、object-oriented-database

在亚马逊网络服务中，有用于将数据库快照从关系数据库传输到S3的options。但是S3是一个对象存储，所以它只存储文件(例如parquet)。关系数据库中的表之间的关系(如键)是否以某种方式传递到了S3？是否仍然可以对S3中的文件进行查询，从而允许在表之间进行连接？

浏览 29提问于2021-07-10得票数 0

1回答

对ISNULL()函数的意外红移支持。这有记录吗？

redshift

据我所知， As ISNULL() function仅与T-SQL.兼容。然而，我正在使用Datagrip开发一个红移集群，该集群接受ISNULL()函数并返回结果，没有错误。我甚至可以在IDE中获得上下文帮助文本。我已经找到了零个红移文档和零个PostgreSQL文档，它们甚至引用了ISNULL()函数，更不用说确认对它的支持了。Is有支持 ISNULL()**的文档吗？这个函数是非正式支持的吗，因为它可以工作，但是我找不到任何文档？** 红移环境信息： DBMS: Redshift (ver. 8.0.2) Driver: Redshift JDBC Driver (ver. 2.0.

浏览 0提问于2022-02-11得票数 1

1回答

星火如何与红移互动？

apache-spark、pyspark、apache-spark-sql、amazon-redshift

我使用星火已经有几年了，我的新团队使用Redshift。我已经成功地绑定了Spark/Redhshift集群，并且可以通过Spark成功地执行红移查询，并将它们卸载到S3中。如果我正确理解，当我在火花红移中生成数据时，实际的重物是由红移本身完成的，而不是由火花完成的。我在这两个平台上都运行了相同的查询，而在Spark中运行的查询所花费的时间大约是以前的两倍。由于在这两种情况下，查询本身都是由Redshift解决的，所以我认为额外的时间是网络I/O，从红移到火花集群。星星之火实际上只是一个查询的收集器，它以方便的数据with的形式出现，然后我可以用它的库来并行机器学习方法。这个描述有多准确

浏览 1提问于2016-12-09得票数 1

1回答

聚合时间序列数据并将结果存储到DynamoDB中的最佳大数据解决方案

amazon-web-services、amazon-s3、bigdata、amazon-redshift、aws-glue

我正在研究不同的大数据解决方案，并没有找到明确的答案或文档，说明什么是解决我的大数据用例的最佳方法和框架/服务。我的用例： I有一个数据生成程序，它将每天将大约12亿个事件发送到流。需要将这些数据存储在某个数据湖/数据仓库中，进行聚合，然后加载到DynamoDB中，以便我们的服务在其业务逻辑中使用聚合数据。，DynamoDB表需要每小时更新一次。(每小时不是一项困难的要求，但我们希望DynamoDB尽快更新，如果需要的话，每天更新的间隔最长)事件模式类似于: customerId、deviceId、countryCode、时间戳聚合模式类似于: customerId、deviceId、cou

浏览 2提问于2021-04-29得票数 1

回答已采纳

1回答

用Python脚本加载红移数据

python-3.x、pandas、pyspark、amazon-redshift

我必须将数以百万计的记录加载到redshift DB中(这是必须的)，这样做的最有效/最快的方法是什么？现在，我正在创建一个字典，在其中存储行块，这些行被抛到字符串中，这样我就可以将它们放在查询字符串中，然后使用Pandas这样的方法： with psycopg2.connect(prs.rs_conection_params_psycopg2) as conn: with conn.cursor() as c: c.execute(query_create_empty_main_table) for chunk in df_chunks.keys()

浏览 0提问于2020-04-22得票数 0

回答已采纳

2回答

是“插入选择”，不受红移中的竞赛条件影响。

database、concurrency、data-warehouse、amazon-redshift

我们有一个数据仓库系统，需要将s3上以csv格式显示的数据加载到红移表中。唯一的限制是只有唯一的记录被插入红移。为了实现这一点，我们将以以下方式使用暂存表。创建一个临时表。将S3文件复制到TEMOPRARY表中。开始交易插入到{主红移表} select从列上的{连接在暂存表和主红移表之间，该表应该是唯一的，以便记录是唯一的} 结束交易 select子查询中使用的联接返回那些存在于暂存表中的记录，但不返回主红移表中的记录。是上述机制，没有竞争条件. 例如，考虑- 主红移表没有行，s3文件包含两个记录。因此，当由两个不同的进程/请求加载相同的s3文件时。每个请求的select查询将主

浏览 2提问于2016-05-09得票数 0

2回答

红移频谱/您试图访问的存储桶必须使用指定的端点进行寻址

amazon-s3、amazon-athena、amazon-redshift-spectrum

我在S3中创建了一个拼花文件，并在Redshift /谱中创建了一个指向它的外部表。我的S3桶和红移集群都在我们中间-west-2。我在创建架构时指定了选项区域。查询在雅典娜.中运行顺利然而，当我从Redshift客户端运行时，我会得到以下错误：亚马逊无效操作: S3查询异常(获取) 详细信息：错误: S3查询异常(Fetch)代码: 15001上下文:任务由于内部错误而失败。HTTP响应错误代码: 301消息: PermanentRedirect --您试图访问的桶--必须使用指定的端点进行寻址。>请将所有未来的请求发送到此端点。X-amz-request: XXXX查询:

浏览 2提问于2017-08-11得票数 1

2回答

使用查询在redShift中插入json

amazon-web-services、amazon-redshift

我试图使用这个SQL查询将数据插入红移表： insert into temp(JSON)({"name":"abc","lname":"xyz"}); 但是它不起作用，我得到了一个错误：语法错误有没有任何方法可以使用查询将json数据插入红移？我希望将整个json对象插入查询中，而不是传递键和值。

浏览 5提问于2017-10-11得票数 0

1回答

无法在AWS胶水中建立红移连接，红移位于不同的位置(us-west-1)

amazon-redshift、aws-glue

红移位于美国西部1区域，美国西部1区域不支持aws胶水.因此，我在不同的地区创建了aws胶水，并试图访问红移。当我在AWS胶水中添加连接时，没有得到红移群集的详细信息。因此，我尝试使用jdbc连接，但如果要成功地连接，failing.What应该是。

浏览 0提问于2018-08-28得票数 0

2回答

红移谱显示所有行的空值。

amazon-redshift-spectrum

当我在雅典娜查询编辑器中运行这个查询时，它可以正常工作。从“sam更进一步b”中选择*。“elb_logs”限制为10； elb_logs表是根据官方教程生成的。当我试图在红移中使用频谱时，我可以看到所有列的所有"NULL“值。我使用以下命令创建athena_schema： drop schema "athena_schema"; create external schema athena_schema from data catalog database 'sampledb' iam_role 'arn:aws:iam::94331X

浏览 1提问于2019-10-03得票数 3

回答已采纳

1回答

如何替换只有unicode表示形式的字符？

c#、unicode、amazon-redshift

我有一个字符串，当显示在Notepad++中时： App.xEFxBFxBF35 tocken EFxBFxBF接缝是一些应用程序无法处理的UTF实体(对我来说，它的红移)。在记事本中，字符串读为 App.35 如何从c#中的字符串中删除该实体？编辑在visual studio中，调试器中的字符串显示为 "App.\uffff35" 编辑1 最后发现，当我插入非拉丁文字符时，该列的大小需要加倍。我通过查看sql server中列的字符长度来创建红移表，并将该数字直接用于红移中的列。这适用于拉丁语的语言，而非拉丁语的语言。我通过这个红移查询找到了不同的长度。 selec

浏览 4提问于2017-07-18得票数 0

回答已采纳

1回答