文章/答案/技术大牛

发布

社区首页 >问答首页 >在Redshift中实现并行性

问在Redshift中实现并行性
EN

Stack Overflow用户

提问于 2020-10-21 10:18:11

回答 1查看 158关注 0票数 0

我在亚马逊红移表中每小时摄入一些数据。数据在.csv桶中每小时在一个S3文件中可用。

请注意:我的红移集群有4个节点片。

我在Redshift中创建的表确实有分发键和排序键。文件大小每小时不超过200 is。

现在我的问题是，在Redshift表中摄入数据的最佳实践是什么：

运行复制命令如下所示-

copy my_schema.my_table from 's3://mybucket/table_data.csv' CREDENTIALS 'aws_access_key_id=<MY_ID>;aws_secret_access_key=<SECRET_KEY>' delimiter '|';

，或者，我是否需要在其中使用任何其他可选参数来使用红移并行的优点。我知道它的默认并行性是均匀的。

另外，如果我们使用任何其他方法来摄取数据，这会对可用的存储大小产生任何影响吗？如果它改善了还是保持不变。或者，如果我们实现其他方法，我们还能得到什么其他好处。

寻求你在这方面的专家意见。

谢谢

amazon-web-services

amazon-s3

architecture

amazon-redshift

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-10-21 10:42:15

无法让Redshift并行加载单个文件。原因是，没有办法可靠地拆分文件，使所有节点都能在行的开头开始读取。

如果您想要加快加载速度，您应该将数据分割成尽可能多的片。有关如何优化COPY的更多信息，请参见https://docs.aws.amazon.com/redshift/latest/dg/t_Loading-data-from-S3.html。

也就是说，每小时加载一次200 MB的数据应该非常快，即使从一个文件中也是如此。我不认为你会在这方面有任何问题，并且你不应该花时间去优化它，除非它真的是一个问题。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/64461427

复制

相似问题

问在Redshift中实现并行性
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Redshift中实现并行性EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Redshift中实现并行性
EN