RedShift -为什么不应该压缩sortykey列？_为什么Redshift UNLOAD query无法正确引用列？_为什么像Snowflake和Redshift这样的柱状数据库不能改变列的顺序？ - 腾讯云开发者社区

amazon-redshift

谁能给我一个例子，解释为什么我们不应该在排序键列上使用压缩？

浏览 14提问于2020-05-02得票数 0

回答已采纳

1回答

AWS红移:应该压缩DISTKEY / SORTKEY列吗？

amazon-web-services、amazon-redshift

让我问一些关于AWS红移上的列压缩的问题。现在，我们正在验证如何使用适当的远程样式、排序键和列压缩来提高性能。如果我的理解是正确的，列压缩可以帮助降低IO成本。我试过“分析压缩table_name;”。而且大多数Redshift建议使用'zstd‘或'lzo’作为我们列的压缩方法。一般来说，我可以问设置为DISTKEY/SORTKEY的列也应该像其他列</em

浏览 2提问于2018-10-03得票数 4

回答已采纳

1回答

为什么基于列的数据库更容易压缩？

amazon-redshift

:10,Smith,Joe,40000;003:11,Johnson,Cathy,44000;基于列的数据库如下所示Johnson:003,Jones:004;40000:001,50000:002,44000:003,55000:004; 为什么像RedShift这样的服务声称能够更好地压缩数据？或者更普遍地说，为什么基于

浏览 1提问于2016-03-02得票数 0

回答已采纳

2回答

红移表尺寸及口味

amazon-web-services、amazon-redshift

对Redshift中的“表大小”一词感到困惑。svv_table_info.pct_used“可用空间的百分比”希望有人能帮我澄清

浏览 5提问于2021-12-16得票数 1

回答已采纳

1回答

红移:错误:最大列长度超过255码

amazon-web-services、amazon-redshift

movie_title VARCHAR encode text255,错误:错误:最大列长度超过255text255编码查询限制:0位置: column.cpp:167进程: padbmaster pid=9637 但据我所知，text255压缩并不是这样工作的它使用一个字节(255)对列中的文本进行编码，字典中没有表示的任何单词都是未压缩</em

浏览 2提问于2015-11-30得票数 0

3回答

红移性能:对连接列进行编码

amazon-web-services、amazon-redshift

对join列进行编码会破坏查询性能吗？我让"COPY command“来决定编码类型。

浏览 3提问于2016-07-13得票数 1

1回答

PRIMARY KEY (some_id, some_timestamp, some_value)sortkey (some_id, some_timestamp);and some_timestamp = 1475679898584; 显示了对42,394,071行的表扫描(来自svl_query_summary中的rows_pre_filter列，列is_rrscan为true)，并在对未压缩的表运行时扫描3,143,856。我猜想这是因为

浏览 1提问于2017-08-26得票数 1

2回答

红移中的数据规范化

normalization、amazon-redshift

最近，我开始使用Redshift为数百万个数据点安装一个模式，如下所示： name varchar(100), value decimal(18,4在传统的sql数据库中，这显然是肯定的，但我不确定Redshift是如何处理这个问题的，因为它是一个柱状数据存储。我认为总体上这样做是很好的，但我假设Redshift会/可以在幕后执行一些类似的映射，因为任何表中的某些列的基数都比其他列低。

浏览 2提问于2014-06-20得票数 4

回答已采纳

1回答

AWS红移栏限制？

sql、database-performance、amazon-redshift

我已经为一个新的应用程序做了一些AWS Redshift的负载测试，并且我注意到它的列限制为每个表1600。更糟糕的是，随着表中列数的增加，查询速度会减慢。这里没有任何意义的是Redshift应该是一个列存储数据库，理论上不应该有来自特定where子句中没有选择的列的I/O攻击。更具体地说，当TableName是1600列时，我发现下面的查询要比TableName是1000列和相同行数的情况下慢得多。随着列

浏览 1提问于2015-09-03得票数 8

1回答

红移压缩建议与分析压缩不同

amazon-web-services、encoding、compression、amazon-redshift

Redshift集群向我展示了一些与压缩相关的建议，如：table,field_f,az64,0.00为什么这个redshift建议只集中在一个字段中，而analyz

浏览 4提问于2021-11-30得票数 0

回答已采纳

2回答

使用相同磁盘空间的所有列的红移表

amazon-redshift

作为ETL过程的一部分，我在RedShift中创建了许多小的暂存表。每个表有50-100行(平均)和大约100列。当我询问每个暂存表需要多少磁盘空间时，所有列占用的空间都完全相同。我尝试过多个排列：似乎没有什么可以改变这些暂存表所需的空间为什么RedShift不更积极地压缩这些表？我可以在RedSh

浏览 3提问于2016-02-02得票数 0

回答已采纳

1回答

如何优化一个耗费大量时间的“优化”MYSQL查询

mysql、database、innodb、database-optimization

我有一个表(innodb)，每周有一百万个新的插入(20 new )。我只需要一周的数据，所以我在7天后删除了它，所以每天我们删除大约3 3GB，并插入3 3GB的新数据。该表已经位于与其他表不同的数据库中。有没有什么方法可以更快地做乳剂呢？如果我们每次删除数据都运行优化，会不会比每隔几周运行一次优化更快呢？我想当只有3 3GB的删除行需要从磁盘中删除时，运行它可能会更快，如果我们在20天后运行它，它就是60 3GB。是那么回事吗

浏览 55提问于2019-07-21得票数 0

回答已采纳

1回答

将Hive表从HDFS移动到Amazon Redshift

r、hadoop、hive、amazon-redshift

我尝试将通过连接4-5个数据集创建的Hive表传输到Redshift。这个过程应该如何实现？我们在边缘节点上有R可用。蜂窝表必须先传输到S3，然后再从s3传输到红移。这是唯一的方法吗？是否可以使用R，即使用RHive包将我的数据集从HDFS移动到R，然后将此数据集从R移动到Redshift？

浏览 1提问于2015-03-05得票数 2

2回答

如何找出红移表中每一列的大小？

sql、amazon-redshift

在Redshift中尝试不同的压缩设置时，了解每一列的大小将是非常有用的。我知道如何获得表的大小，但我想知道该表中每个列的大小。

浏览 0提问于2015-10-28得票数 4

回答已采纳

4回答

AWS Redshift* JDBC插入性能*

jdbc、amazon-redshift

我正在写一个概念验证应用程序，旨在以每秒约1000条消息的速度获取实时点击流数据，并将其写入Amazon Redshift。我正在努力获得其他一些人所声称的性能(例如，)。我运行的集群有2个dw.hs1.xlarge节点(+ leader)，负责加载的机器是运行64位Ubuntu 12.04.1的Redshift集群所在的VPC上的EC2 m1.xlarge实例。我不能使用COPY FROM，因为我们想要“实时”加载数据，所以通过S3或DynamoDB暂存数据并不是一个真正的选择，而且出于某种原因，Redshift不支持COPY FROM

浏览 0提问于2013-05-10得票数 19

1回答

Redshift中的sortkey是如何内部工作的？

database、amazon-web-services、amazon-redshift、data-warehouse

总的来说，我是Redshift和数据仓库的初学者。当数字或时间戳列指定为sortkey时，Redshift DBMS是否在查询期间使用二进制搜索来尽可能有效地查找所需的行？

浏览 1提问于2021-07-02得票数 2

回答已采纳

1回答

亚马逊网络服务红移拷贝自S3

hive、amazon-redshift

我需要添加什么作为“选项”让Redshift正确识别文件类型？谢谢!

浏览 0提问于2014-10-18得票数 1

1回答

柱状数据库--可以查询(聚合)压缩数据

database、nosql、hbase、amazon-redshift

我想运行聚合查询(例如，在列/colfam中，对于某些行键，值'1‘重复的次数是多少次。我想在压缩数据上运行这些查询，因为它们将提供更好的性能，我们可以完全跳过解压缩。我目前正在使用Hbase的聚合客户端，它看起来像是(还没有检查源代码yet...can是错误的)，Hbase使用它的b树索引查找行键，解压缩该块并按顺序读取数据。有办法跳过解压过程吗？看起来红移( Redshift，ParAccel)也在以同样的方式进行聚合。如何使HBase只通过处理压缩数据来计算计

浏览 4提问于2014-03-01得票数 1

回答已采纳

1回答

Redshift中varchar长度的存储大小

varchar、redshift

如果值不超过255个字节，列使用一个长度字节；如果值可能需要超过255个字节，则使用两个长度字节。我想知道红移是否也是一样的？我已经搜过那些医生了，但却找不到它来救我！顺便提一下，我问这个问题，是因为我们的同事在大多数字段中使用varchar(256)构建了整个数据仓库--所有短字段长度的限制，1字节长度存储的好处都没有(除非Redshift不考虑使用2字节)。

浏览 0提问于2015-05-01得票数 4

回答已采纳

1回答

我可以在RedShift中创建快速插入暂存表吗？

sql、bigdata、amazon-redshift

我们正在努力将分析数据实时存储到RedShift中.但是，由于存储特性，单个插入在RedShift中的工作速度很慢。一种解决方案是在我们的应用程序中收集这些插入内容，然后将它们作为一个批量上传到RedShift中。然而，这将需要一些讨厌的架构改变，在我们的应用程序，所以我正在寻找其他方法。例如，是否有一种在RedShift中创建快速暂存表的方法--使其不使用压缩列(?)存储并允许快速插入，前提是我们不会将许多记录放入其中，并将其合并到主表中，例如，在插入每千条记录之后？

浏览 4提问于2014-11-06得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云