如何对Amazon Redshift外部表进行建模以更改列结构？

、、、

我在源表(MySQL)中有5列，c1, c2, c3, c4, c5。我导出表并添加到S3中，如下所示： s3://data/table_name/YYYYMMDD/table_nameYYYYMMDDHHMMSS.csv 我导出了这3个月的数据。现在，s3://data/table_name/YYYYMMDD/table_nameYYYYMMDDHHMMSS.csv中导出的文件将有7列 c4列也有可能被删

浏览 13提问于2019-06-13得票数 2

3回答

红移性能:对连接列进行编码

、

对join列进行编码会破坏查询性能吗？我让"COPY command“来决定编码类型。

浏览 3提问于2016-07-13得票数 1

1回答

如何以编程方式读取AWS Glue Data Catalog表架构

、

我有一套结构统一的每日CSV文件，我会将它们上传到S3。有一个下游任务将CSV数据加载到Redshift数据库表中。CSV中的列数可能会增加，从那时起，新文件中将包含新列。当发生这种情况时，我希望检测更改并自动将该列添加到目标Redshift表中。我的计划是在源CSV文件上运行Glue Crawler。模式中的任何更改都将在Glue Data Catalog中生成表的新版本。然后，我想使用Java

浏览 10提问于2018-01-15得票数 4

回答已采纳

2回答

Glue爬虫如何在红移表中加载数据？

、、、、

我是一个新的AWS用户，对它的服务感到困惑。在我们的公司中，我们将数据存储在S3中，因此我在s3中创建了一个桶，并创建了一个AWS爬虫来将这个表加载到Redshift表(我们在公司中通常这样做)，我在Redshift上成功地看到了这一点。以下是我的问题:我的爬虫是如何工作的，它是否将S3数据加载到Redshift？我的公司是否应该有一种特殊的配置，允许我将数据加载到Redshift？谢谢

浏览 2提问于2021-05-20得票数 2

回答已采纳

2回答

如何提高Redshift查询的速度

、

我正在使用函数从JSON中提取值。随着行数据的增加，查询需要很长时间才能运行，并且会在一段时间内失败。

浏览 3提问于2014-11-13得票数 5

5回答

“数据加载”或"ETL“的工具--从SQL Server到Amazon Redshift

、、、

我正在尝试找出合适但简单的工具，我可以将自己托管在亚马逊EC2中，它将允许我从SQL Server2005中提取数据并推送到Amazon Redshift。基本上，我在SQL Server中有一个视图，我在该视图上执行SELECT *操作，我只需要将所有这些数据放入Redshift。最大的担忧是有很多数据，这需要是可配置的，这样我就可以对其进行排队，作为夜间/连续作业运行，等等。有什么建议吗？

浏览 1提问于2014-05-21得票数 2

1回答

中的列式数据库查询

、

听说它在云上是非常强大的存储，并且在需要聚合操作的数据上工作得非常快，因为它按列存储数据。找不到任何示例查询吗？有人能和我分享一些运行在Amazon上的聚合查询的例子吗？

浏览 1提问于2017-07-18得票数 2

2回答

将一对一关系映射到错误的(棕色)数据库模式

、、

我必须在NHibernate中对这种关系进行建模(为了紧跟主题，对代码进行了一些简化)--一个员工可以是一个客户经理(所以，这是可选的)：我在Employee表中有一个Number列，它指向表EmployeeIsAccountManager中的Number<e

浏览 2提问于2010-12-07得票数 5

回答已采纳

1回答

巨蟒的SQLLite型铸造

、、、

我对蟒蛇很陌生。我正在将表数据从AWS Redshift移到python的内存sqllite数据库中。请参阅下表结构：上述列中的value字段在Redshift中以Decimal表示。因此，我将数据类型更改为varchar(30)，这样我的值就可以放在sqllite表中。请参考下面的表结构，以获得内存中的sqllite表：

浏览 1提问于2018-11-05得票数 0

回答已采纳

1回答

对火花和红移执行查询

、、

我们的数据仓库在Redshift (50 is大小)。有时，业务用户会运行大型查询(太多的联接、内联查询--由BI工具(如Tableau)生成)。大查询会降低数据库性能。表通过JDBC连接，并驻留在Redshift上，实际处理在哪里进行(在Spark或Redshift中)？

浏览 6提问于2016-11-23得票数 2

3回答

亚马逊红移模式设计

、、

我们正在研究Amazon来实现我们的数据仓库，请给出一些关于如何在Redshift中正确设计模式的建议。我对红移完全陌生。过去，当我使用“传统”数据仓库时，我习惯于创建模式，如"Source“、" stage”、"Final“等，以便根据数据所处的阶段对所有数据库对象进行分组。默认情况下，Redshift中的数据库只有一个模式，命名为PUBLIC。那么，我要问的是那些曾经在Redshift工作过的人，我上面概述的方法在这

浏览 6提问于2017-03-03得票数 5

回答已采纳

5回答

为什么Redshift不需要物化视图或索引？

、、

在下为什么是这种

浏览 11提问于2016-05-31得票数 7

回答已采纳

1回答

UNION ALL并使用NULL填充date列

、

| 2020-05-15 | | | SELEC

浏览 3提问于2021-05-18得票数 1

回答已采纳

2回答

从s3复制拼花时的红移外部目录错误

、、、、

当我将列限制为几个选择字段时，我可以复制数据。但是，在包含几个特定列时，我得到了一个错误：我知道这个问题很可能与数据有关，但我不确定如何调试，因为这个错误无论如何都没有帮助。我尝试过将列的数据类型更改为超级类型，但没有成功。我这里不使用红移光谱。

浏览 20提问于2022-05-05得票数 0

回答已采纳

6回答

为了将来的灵活性，我应该用关联表建模吗？

、

这是一个数据库建模问题。将数据库建模为多到多，并且应用程序代码将数据限

浏览 5提问于2009-11-19得票数 2

回答已采纳

2回答

如何使用jsonpath从s3复制到红移，同时将某些列默认为null

、

我已经在redshift中定义了一个具有某些列的现有表。这已经通过使用jsonpath定义& COPY from S3命令成功地映射到了一个JSON存储桶中。这一切都运行得很好。然而，这个新数据并没有这个红移表中所有列的值-我想简单地将新存储桶数据的红移表中的那些特定值默认为none。我试图避免对新的存储桶数据进行预处理，这可能只涉及添加具有空值的附加键(以映射到不需要的列)。我尝试过在jsonpath中简单

浏览 32提问于2019-05-23得票数 0

3回答

AWS红移应该用于在线查询吗？

、、、

我有一个用例，其中一个相当大(大于1TB)的SQL DB必须移动到云中，我正在考虑使用Redshift而不是一些RDS解决方案，因为它有点便宜，而且我可以在10秒内处理我的查询的延迟。与RDS相比，使用Redshift会是一个合理的选择吗？更新:系统将每天更新数据库一次或两次。

浏览 3提问于2017-04-03得票数 1

1回答

红移或平面设计中的尺寸建模-成本与时间

、、

基于使用响应，所有建议只有Redshift插入方法才能获得最佳性能，因为它是为read设计的。但是它不是增加了储存的成本吗？我目前正在研究MSBI，我的事实和维度有着复杂的结构。现在，如果我做的方法与我在前提下所做的相同，那么我将不得不运行我的ETL，将关键列与暂存进行比较&然后执行CRUD，这使得将我现有的系统移动到云是毫无意义的。如果我使用平坦的表结构，那么我的表中的数据将增加4-6倍，这将增加云端存储的成本，而在此基础上的计算可能会增加额外的成本。对

浏览 6提问于2020-08-17得票数 0

回答已采纳

1回答