随着企业业务的发展,企业自身的业务系统及其中所存储的数据会变的越来越多,同时业务及运营人员对于日常的指标及数据分析需求也会越来越明显。
这时为了企业能够拥有更好的数据基础来支撑常规的BI系统以便辅助业务决策,一些企业会选择建立企业级的数据仓储系统对公司全部或部分的数据进行统一存储及管理。
一、数据仓库系统与操作型系统的区别
传统操作性系统更注重对实际业务的处理(如电商交易系统),一般采用传统关系型数据库对数据进行存储(如mysql)。数据仓库系统更偏向于复杂的分析操作,侧重决策支持,一般采用多维数据库对数据进行存储和管理,又称OLAP(联机分析处理)。
二、数据仓库的特点
1、数据仓库是面向主题的
操作型数据库的数据组织是面向独立事务的处理任务,各个业务系统之间是分隔独立的。而数据仓库的数据是面向主题的,通过一个个主题域将多个业务系统的数据加载到一起。
2、数据仓库是集成的
数据仓库系统需要将多处的数据源通过一定的规则进行抽取和清洗,并最终加载到数据仓库中。过程中必须消除数据的不一致性。
3、数据仓库的数据是相对稳定的
操作型数据库事实上并不过于注重历史数据,但数据仓库的数据是为企业数据分析而建立,所以数据被加载后一般情况下将被长期保留。
4、数据仓库更注重读
数据仓库中的数据一般仅执行查询操作,很少会有删除和更新。需定期加载和刷新数据。
5、持续的项目
数据仓库并不会像一个独立项目一样的由始至终完结,它从开始建立起就需要不断的维护。很多企业会选择先面向某个主题建立数据集市,在通过一个个数据集市组成完整的数据仓库。
三、数据仓库的多维数据建模
对于现实世界中的某个事务其实完全可以抽象成维度和事实。
例如“小明今天在商场吃了一顿饭”
维度可抽象为:“时间维 =
领取专属 10元无门槛券
私享最新 技术干货