Redshift中时序表的保留管理

基础概念

Amazon Redshift 是一种完全托管的数据仓库服务，专为快速查询和使用 SQL 和您选择的商业智能工具进行数据分析而设计。时序表（Time Series Table）是存储随时间变化数据的一种特殊类型的表，通常用于分析趋势、模式和历史数据。

保留管理

时序表的保留管理是指如何处理和存储随时间积累的数据。随着时间的推移，时序数据会迅速增长，因此需要有效的策略来管理数据的生命周期，包括数据的保留、归档和删除。

类型

固定保留期：设定一个固定的时间范围，超出这个范围的数据将被删除或归档。
基于事件的保留：根据特定事件的发生来决定数据的保留或删除。
基于策略的保留：使用预定义的策略来自动化数据的保留和删除过程。

应用场景

金融分析：跟踪和分析股票价格、交易量等随时间变化的数据。
物联网（IoT）：存储和分析来自传感器设备的实时数据。
运营监控：监控和分析系统的性能指标和日志数据。

常见问题及解决方法

问题：为什么 Redshift 中的时序表性能会下降？

原因：

数据量过大，导致查询性能下降。
数据分布不均，导致某些节点负载过高。
索引和分区策略不当，影响查询效率。

解决方法：

数据分区：将数据按时间范围或其他逻辑分区，以提高查询效率。
数据压缩：使用 Redshift 的压缩功能减少存储空间和 I/O 操作。
优化查询：编写高效的 SQL 查询，避免全表扫描。
自动扩展：根据负载情况自动扩展集群资源。

示例代码

-- 创建时序表并设置分区
CREATE TABLE time_series_data (
    id INT,
    timestamp TIMESTAMP,
    value FLOAT
)
PARTITION BY RANGE (timestamp) (
    PARTITION p2022_q1 VALUES LESS THAN ('2022-04-01'),
    PARTITION p2022_q2 VALUES LESS THAN ('2022-07-01'),
    PARTITION p2022_q3 VALUES LESS THAN ('2022-10-01'),
    PARTITION p2022_q4 VALUES LESS THAN ('2023-01-01')
);

-- 插入数据
INSERT INTO time_series_data (id, timestamp, value) VALUES (1, '2022-03-01', 100.0);

-- 查询数据
SELECT * FROM time_series_data WHERE timestamp >= '2022-01-01' AND timestamp < '2022-04-01';

参考链接

Amazon Redshift Documentation

通过上述方法和建议，您可以有效地管理 Redshift 中时序表的保留，确保数据仓库的性能和效率。

Redshift中时序表的保留管理

我有一个表，我使用DMS从Aurora迁移到Redshift。此表仅按时间戳插入大量数据。我想要那张桌子的红移裁剪版。我们的想法是在它上使用分区，并使用保留脚本将其保留在最近两个月。然而，在Redshift中，没有分区，我发现的是时间序列表，听起来是一样的。如果我理解正确的话，我的表格应该是这样的： create table public."( &qu

浏览 18提问于2021-05-11得票数 0

回答已采纳

1回答

即使在同时为Dist键和排序键的列中加入时，仍在执行散列连接

、、、、

我在Redshift中有一个事实表，大约有13亿行，其中包含DISTribution键c1和排序键c1，c2。我需要在c1上用一个join子句连接这个表(即表的第一个实例的c1 =表的第二个实例的c1 )。当我看到查询的查询计划时，Redshift似乎正在使用DS_DIST_NONE进行哈希连接。虽然DS_DIST_NONE是预期的，因为我在列c1上有dist键和排序键，但是我希

浏览 8提问于2015-03-31得票数 2

回答已采纳

1回答

我是否应该在Redshift中存储小数据集？

、

我正在使用AWS Redshift解决一个大数据问题。此应用程序现在需要进行个性化，需要在数据存储中存储用户首选项。系统中的用户少于100，因此不需要大数据存储。我该怎么做，使用多语言存储可能是一个RDS Postgres来存储用户偏好，或者我应该只使用Redshift来模拟用户偏好。

浏览 0提问于2015-02-09得票数 0

1回答

Amazon Redshift是否具有与SQL Server相同的表开关？

、

我一直在文档中搜索，但我没有看到一条语句，比如：Amazon Redshift中有没有类似的东西？

浏览 0提问于2021-09-30得票数 0

1回答

在RedShift中使用Django多个数据库

、、、

我试图使用Django多数据库配置，将MYSQL作为我的默认数据库，redshift作为我的分析数据库。我的配置有时如下所示： 'default': { 'NAMEdjango.db.backends.postgresql_psycopg2', 'USER': &#x

浏览 0提问于2015-09-22得票数 4

回答已采纳

1回答

从数据库中检索红移集群指标

、

AWS管理控制台Redshift仪表板中提供的所有Redshift群集指标是否在某些Redshift数据库系统表/视图中也可用？

浏览 28提问于2021-02-02得票数 0

1回答

在Redshift中为表执行热交换时避免表锁的最佳实践

、、、

我正在运行一个周期性的ETL进程来将表从MySQL同步到Redshift。这涉及到表交换--对于每个MySQL表，我在Redshift中创建一个名为\<table>_tmp的暂存表，将数据加载到其中，并在准备好时将生产表重命名为\<table>_old，并将\<table>_在Redshift中重命名表需要一个AccessExclusiveLoc

浏览 5提问于2021-02-21得票数 0

回答已采纳

1回答

使用红移光谱的步骤是什么？

、、、

如果我使用的是SQL工作台，可以从相同的平台创建外部模式，或者需要从AWS控制台或雅典娜创建外部模式。我需要有雅典娜在一个特定的地区吗？在没有雅典娜的情况下可以使用光谱吗？如果有人使用过频谱，请提供帮助，并让我知道使用频谱的详细步骤。

浏览 0提问于2017-06-20得票数 6

回答已采纳

1回答

RedShift集团与角色

、

我被RedShift中的组和角色概念搞混了。我们什么时候使用组，什么时候使用角色？我试图从其他产品中的典型RBAC实现中了解它，但无法与RedShift如何实现它相匹配。

浏览 9提问于2022-08-15得票数 4

1回答

如何以编程方式获得红移DDL？

、、、

但是它并没有给我一个distkey和sortkey --还有其他的方法来获得一个完整的ddl和create (使用distkey & sortkey)，修改状态，对列和表进行注释，并授予语句。

浏览 15提问于2022-09-14得票数 0

1回答

如何在Redhift中合并JSON对象？

、、、

但我不确定如何合并Redshift中的json对象。对如何做到这一点有什么建议吗？

浏览 0提问于2018-07-01得票数 1

2回答

红移中的数据规范化

、

最近，我开始使用Redshift为数百万个数据点安装一个模式，如下所示： name varchar(100), time timestamp(真正的模式稍微复杂一些，但这将满足我的问题) 我想知道，通过将我的度量名映射到一个整数，并且只存储该整数name的基数是100。通过添加映射，它将使应用程序逻辑更加复杂，因为它有许多输入流。而且，提前查询需要

浏览 2提问于2014-06-20得票数 4

回答已采纳

2回答

将数据加载到Redshift后，Redshift表不会保留SAS排序顺序

、、、

当我使用PROC SORT into Redshift加载按关键字(包含重复关键字)排序的SAS数据集时，Redshift中不会保留相同的排序顺序。例如。当我比较SAS数据集和Redshift表时，它们的排序顺序不同，数据在重复键中非常混乱，很难找到数据如何存储在Redshift列中的模式，或者为什么会发生这种情况。 ?]1 任何关于在数据从SAS加载到Redshift

浏览 36提问于2021-02-12得票数 0

回答已采纳

2回答

WHERE子句与较小的表

、

对于具有WHERE子句限制结果集的表的查询时间，是否存在有意义的差异(或给定表大小的经验规则)，而较小的表则等于post-WHERE，有限结果集的大小？您的表只有10天的数据，并且运行与上面相同的查询(显然没有

浏览 4提问于2017-09-29得票数 1

回答已采纳

1回答

我可以强制Redshift不对特定的外部架构使用Lake权限吗？

、

data catalogregion 'eu-north-1'; 具有完全访问S3、胶水和湖水的策略。在“湖形成”权限中授予创建数据库、选择表和访问

浏览 4提问于2021-08-12得票数 1

1回答

从MySQL到Redshift的近实时ETL

、、、

我正试图找出最有效的方法从MySQL中提取数据，将其转换并加载到几乎实时的红移。目前，我们有通宵ETL工艺(使用宾得)，持续时间~40分钟，我们希望用近实时(小批1-5分钟)取代它。我找到了从MySQL binlog (即)与AWS连接的数据提取工具，我计划使用Apache或AWS转换和连接数据，并将其写入S3，然后从COPY命令将其写入Redshift。

浏览 3提问于2017-11-20得票数 5

2回答

将具有多个布局的json对象从S3复制到Redshift

、、

我有一个S3存储桶，里面有许多包含"\n“分隔的json对象的文件。这些json对象可以有几种不同的布局。在所有布局中都有一组标准的键。大多数差异只有几个额外的键，但有些有嵌套的json对象。我已经设法在Redshift中定义了一个基本表，并将数据复制到该表中，但表中没有的任何键都会丢失。我想为每个布局创建一个表，并将json对象复制

浏览 1提问于2014-05-24得票数 1

1回答

无法使用aws nodejs sdk创建红移表

、、、

我在看红移找不到我在这里错过了什么？

浏览 3提问于2017-10-28得票数 0

1回答

删除Redshift数据库中的所有重复项

、、

我有一个非常大的红移数据库。记录没有唯一的键或ids。我想用最高效的查询来删除所有的重复项。其他关于典型sql数据库的堆栈溢出问题建议在该过程中复制表并跳过重复项，但对于大型红移数据库，这似乎不是最佳选择。有没有更好的解决方案？

浏览 1提问于2014-07-01得票数 6

回答已采纳

1回答

DBLink查询即使在完成后也不会终止

、、、、

我有一个Dblink查询Amazon RDS (Postgres)，它使用Amazon Redshift集群中的行执行插入操作。我正在通过JetBrains的DataGrip运行这些查询。其他一些类似的dblink在相同的连接上，如预期的那样终止。我看到的唯一区别是表的大小，在第一种情况下更大。所有这些查询都只是复制整个表。如果我这样做了，插入的行将保留在数据库中</em

浏览 49提问于2019-10-17得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

Redshift中时序表的保留管理

基础概念

保留管理

相关优势

类型

应用场景

常见问题及解决方法

问题：为什么 Redshift 中的时序表性能会下降？

示例代码

参考链接

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐