大多数数据不是静态的。不,数据具有改变的生命,可能用于多种用途,并且可以在各处移动。因此,考虑组织中数据的生命周期是有意义的。
附图有助于演示此生命周期。基本上,任何数据都有三个主要的“生命”阶段。
通常通过交易在某些时刻创建数据:产品被释放,订单被处理,存款等等。在创建之后的一段时间内,数据首先进入状态:它是可操作的。也就是说,需要数据来完成正在进行的业务交易。这是它为主要业务目的服务的地方。对此状态下的数据进行交易。大多数更改都发生在数据运行状态期间。
操作状态之后是参考状态。这是报告和查询目的仍然需要数据的时间,但它不一定推动业务交易。可能需要数据来生成内部报告,外部报表,或者只是在客户要求的情况下存在。
然后,在一段额外的时间之后,数据移动到完成业务事务不再需要的区域,并且查询和报告所需的机会很小。但是,为了符合法规要求和其他法律目的,仍然需要保存数据,特别是如果它涉及金融交易。这是存档状态。
最后,在归档中指定的一段时间之后,根本不再需要数据,并且可以丢弃该数据。实际上应该强调这一点:必须丢弃数据。在大多数情况下,保留旧数据的唯一原因是遵守法规,其中许多法规有助于启动诉讼。如果没有法律要求维护这些数据,那么组织要求销毁这些数据是正确和恰当的 - 如果不是法律要求,为什么要让任何人起诉你呢?
也许一个简短的例子会有所帮助。你出去买衣服了。你挑选一件漂亮的衣服并决定向购买的信用卡收取费用。作为此交易的一部分,企业会捕获您的信用卡数据和您购买的商品。换句话说,数据被创建并存储在操作状态中。
在您的月度结算周期完成并且您通过邮件收到您的对帐单之前,它仍然有效。在此之后的某个时刻,数据从操作状态移动到参考状态。进行任何进一步的业务不需要数据,但报告可能需要这些数据。此外,卡处理公司确定存在一段时间 - 可能是90天 - 在此期间客户经常打电话以获得关于最近交易的信息。但在那之后客户的要求很少。
此时,数据可以进入存档状态。它必须保持不变,直到所有监管要求都过去为止。所有对数据的需求,无论是出于内部业务目的还是外部法律目的,都已过期,它将从系统中清除。
在考虑这些数据状态时,不要考虑您已经知道的数据库或技术。数据可以在三个单独的数据库中,单个数据库或其任何组合。此外,在这种情况下不要考虑数据仓库 - 这里我们讨论的是单一的官方数据存储 - 以及它的生产生命周期。
运营和参考状态在当今的组织中得到了相当好的实施,但对于归档数据却并非如此。如果您现在归档任何内容,请考虑如何归档数据。它容易接近吗?或者需要数周或数月的工作才能将存档数据转换成任何合理的查询格式?或者更常见的是,数据永远不会存档。相反,它在操作和参考数据的生产数据库中萎缩,但从未被访问过。它所做的只是占用空间并影响查询对其余数据的性能!
在设计数据库时,请务必相应地考虑每个阶段的数据生命周期和计划。随着监管压力的增加,更好地规划和实施数据库归档的需求将随着时间的推移变得越来越普遍。
原文地址: https://datatechnologytoday.wordpress.com/2015/09/29/the-lifecycle-of-data/