从StackOverflow的交叉柱,我预计它可能会关闭,因为S.O是如此挑剔.https://stackoverflow.com/questions/63432484/what-are-good-options-for-cloud-storage-of-audit-data-written-continuously-ra
我正在研究一些想要存储大量“审计记录”样式数据的东西。比如“用户创建了一个东西”,“用户删除了一个东西”,“用户有27个东西”。我们想把它存储在云中(AWS或者可能是Azure)。理想情况下,我希望使用云本地服务,这样我就不必担心诸如扩展服务器实例、分片等等。
这类数据大多是连续的写入流,通常是一个大型的“报表”样式查询,其中我们在给定的日期范围内汇总或计数一大块数据。我们需要查询单个记录,大约从不。
“AWS中的云数据库”似乎是DynamoDB,但是定价模型,我一直读到的文章似乎暗示它是为更多的事务性模型设计的。写比读要贵一个数量级,这与我的用例正好相反。
请那些有深云知识的人:您会用什么服务(S)来存储这类数据并在上面运行报告?DynamoDB是个糟糕的选择吗?
发布于 2020-08-18 05:17:22
我把你的要求看得井井有条
在AWS上,最便宜的散装存储是S3。其他供应商可能更便宜每GB (例如,Backblaze),但你必须平衡栅格/出口成本。我们一会儿再谈格式。
现在,您需要一种方法来读取这些数据,而不必将其全部摄入到另一个服务中。数据虚拟化(DV)似乎是这里的答案。如果您已经在为一个支持读取外部数据的DBMS付费,那么您可能能够在该服务上恢复这个不常见的工作负载。
有一些独立的数据虚拟化产品,如Apache、方解石和AtScale。在一个专用的VM上安装一个当未使用时是静止的应该就足够了。
然后,用于S3文件的格式取决于DV服务器支持什么。理想情况下,像Parquet这样压缩的东西。如果没有这样的结构化格式(如JSON ),需要一个全面的字典来指导要使用的语言。
我要注意的是,雪花不收取AWS本身价格的存储费用,只对计算收取费用,并且可以读取JSON。这可能是最好的整体,作为一个关键的解决方案。
https://dba.stackexchange.com/questions/273811
复制相似问题