首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

信息系统项目管理师数据仓库及数据模型

数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理决策。它最初是由麻省理工学院(MIT)斯隆商学院的计算机科学家比尔·因莫恩(Bill Inmon)在20世纪80年代提出,并得到了企业界的广泛应用。在数据仓库建设过程中,需要考虑多方面的因素,包括数据源、数据存储与管理、OLAP服务器、前端工具、元数据、粒度、分割、数据集市、ODS、数据模型以及人工关系等。

数据源是数据仓库系统的基础,是整个系统的数据源泉。数据源通常包括组织内部信息和外部信息。内部信息包括存放于关系型数据库管理系统中的各种业务处理数据和各类文档数据。外部信息包括各类法律法规、市场信息和竞争对手的信息等。在数据仓库建设过程中,需要选择合适的数据源,并对其进行数据清洗、转换和加载等预处理操作,以确保数据质量的高度可靠性。

数据的存储与管理是整个数据仓库系统的核心。数据仓库的组织管理方式决定了它有别于传统数据库,同时也决定了其对外部数据的表现形式。要决定采用什么产品和技术来建立数据仓库的核心,则需要从数据仓库的技术特点着手分析。针对现有各业务系统的数据,进行抽取、清理并有效集成,按照主题进行组织。数据仓库按照数据的覆盖范围可以分为组织级数据仓库和部门级数据仓库(通常称为数据集市)。

联机分析处理(OLAP)服务器是用于对数据仓库中的数据进行快速查询和多维度分析的关键技术。OLAP对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势。其具体实现可以分为:基于关系数据库的OLAP(ROLAP)、基于多维数据组织的OLAP(MOLAP)和基于混合数据组织的OLAP(HOLAP)。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;HOLAP基本数据存放于关系数据库管理系统之中,聚合数据存放于多维数据库中。

前端工具是指应用于数据仓库及其相关技术的诸如查询工具、报表工具、分析工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具等软件。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具主要针对数据仓库。前端工具的存在和使用可以帮助数据仓库的用户更加方便快捷地查询和分析数据,进一步提升管理决策的效率。

元数据是关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。典型的元数据包括:数据仓库表的结构、数据仓库表的属性、数据仓库的源数据(记录系统)、从记录系统到数据仓库的映射、数据模型的规格说明、抽取日志和访问数据的公用例行程序等。元数据的管理对于数据仓库的建设和使用非常重要,它使得不同部门之间可以更好地协作,更加准确地理解数据。

粒度是数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。在建设数据仓库时,需要根据实际需求来确定数据的粒度。通常情况下,数据仓库中的数据粒度都比较高,因为数据仓库的目标是支持管理决策,需要提供更加详细的数据。

分割是指将结构相同的数据分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。在数据仓库中,采用分割技术可以有效地优化数据的存储和查询速度。

数据集市是小型的,面向部门或工作组级的数据仓库。它通常是在数据仓库的基础上针对特定业务需求、部门需求或者用户需求进行建设,并且并非所有的数据都必须存储到数据集市中。数据集市相对于大型的组织级数据仓库来说更加灵活、易于建设和管理。

操作数据存储(Operation Data Store,ODS)是能支持组织日常的全局应用的数据集合,是不同于DB的一种新的数据环境,是DW扩展后得到的一个混合形式。它具有四个基本特点:面向主题的、集成的、可变的、当前或接近当前的。ODS可以提供及时、准确的数据,帮助组织进行实时决策和管理。

数据模型是逻辑数据结构,包括由数据库管理系统为有效进行数据库处理提供的操作和约束;用于表示数据的系统。数据模型在数据仓库建设过程中起到了非常重要的作用,因为它直接关系到数据的操作和查询效率。建立数据仓库的数据模型需要考虑多方面的因素,例如数据的组织方式、数据之间的关系、数据的粒度以及数据的共享问题等。

人工关系是在决策支持系统环境中用于表示参照完整性的一种设计技术。在决策支持系统中,人工关系可以帮助用户更好地理解数据之间的关系,对于复杂的数据结构和数据处理任务非常有用。

总之,数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理决策。在数据仓库建设过程中,需要考虑多方面的因素,例如数据源、数据存储与管理、OLAP服务器、前端工具、元数据、粒度、分割、数据集市、ODS、数据模型以及人工关系等。只有综合运用这些基础概念,才能够建立高质量、可靠、可维护的数据仓库,为组织提供准确、实用的数据支持,促进组织管理水平的提高。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OOK-MyvSiU17XzZt3Xeih5qw0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券