前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >数据仓库的数据存储与处理

数据仓库的数据存储与处理

作者头像
UM_CC
发布2022-09-22 14:59:56
5910
发布2022-09-22 14:59:56
举报

前言

这篇文章是我对大三笔记的整理转载,之后在课本的不断复习过程中会不断把知识整理更新上来。

(其中有好多知识因为不是很重要,老师没细讲,所以还没深入剖析,会在之后对这些文章中的知识点不断剖析完善的,一般下面有"更新中......."则表示本章知识还未剖析完善........见谅)

更新中.......

数据仓库的三层数据结构

数据仓库的数据特征

  • 状态数据与事件数据
  • 当前数据与周期数据
  • 数据仓库中的元数据

数据仓库的数据ETL过程

  • ETL概念

数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrub or data cleansing)、转换(Transform)、装载与索引(Load and Index)等数据调和工作

  • ETL过程前后数据的特征
  • 数据的ETL过程描述
  • 抽取(Capture/Extract)
  • 清洗(Scrub/Cleanse)
  • 转换(Transform)
  • 加载和索引(Load/Index)

多维数据模型和星模式

  • 多维数据模型及其相关概念
    • 有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等
    • 关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级
  • 多维数据模型的物理实现
    • 多维数据库(MDDB),其数据是存储在大量的多维数组中,而不是关系表中 ,与之相对应的是多维联机分析处理(MOLAP)
    • 关系数据库是存储OLAP数据的另一种主要方式。与之对应的是关系联机分析处理(ROLAP)
  • 多维建模技术简介
    • 两种主流建模技术 :由Inmon提出的企业级数据仓库模型和由Kimball提出的多维模型 ;
    • 基于关系数据库的多维数据建模,如星型,雪花和事实星座模式;
    • 关于事实表、维表及键的设计
  • 一个星模式的例子

数据挖掘的过程

数据挖掘的主要功能

  • 概念描述
    • 对某类对象的内涵进行描述,并概括这类对象的有关特征
    • 分为特征性描述和区别性描述
  • 关联分析
    • 数据关联是数据中存在的一类重要的可被发现的知识,若两个或多个变量间存在着某种规律性,就称为关联
    • 关联分析是从大量的数据中发现项集之间有趣的联系、相关关系或因果结构,以及项集的频繁模式

MBA(market basket analysis) 啤酒与尿布的故事 在数据分析行业,购物篮的商品相关性分析被称为“数据挖掘算法之王”

  • 分类与预测
    • 分类是数据挖掘中的一项非常重要的任务,目的是提出一个分类函数或者分类模型,能将数据库中的数据项映射到给定类别中的一个
    • 预测是利用历史数据建立模型,再运用最新数据作为输入值,获得未来变化的趋势或者评估给定样本可能具有的属性值或值的范围
  • 聚类分析
    • 聚类是根据数据的不同特征,将其划分为不同的数据类
    • 聚类和分类的区别如下:分类需要预先定义类别和训练样本,而聚类分析直接面向源数据,没有预先定义好的类别和训练样本

聚类分析建模原理:内部距离最小化和外部距离最大化

  • 偏差分析
    • 又称为比较分析,是对差异和极端特例的描述,揭示事物偏离常规的异常现象,其基本思想是寻找观测结构与参照值之间的有意义的差别。
    • 信用卡欺诈检测

偏差检测示意

数据挖掘的常用方法

  • 聚类分析
  • 决策树
  • 人工神经网络
  • 粗糙集
  • 关联规则挖掘
  • 统计分析

数据仓库与数据挖掘的联系

  • DW为DM提供了更好的、更广泛的数据源
  • DW为DM提供了新的支持平台
  • DW为更好地使用DM工具提供了方便
  • DM为DW提供了更好的决策支持
  • DM对DW的数据组织提出了更高的要求
  • DM还为DW提供了广泛的技术支持

数据仓库与数据挖掘的区别

  • DW是一种存储技术,它包含大量的历史数据、当前的详细数据以及综合数据,它能为不同的用户的不同决策提供所需的数据和信息。
  • DM是从人工智能机器学习中发展起来的,它研究各种方法和技术,从大量的数据中挖掘出有用的信息和知识。

数据挖掘的应用领域

  • 金融业
  • 保险业
  • 科学研究
  • 市场营销
  • 客户管理管理
  • 其他领域

卡方检验

  • 卡方检验是一种用途很广的计数资料的假设检验方法。它属于非参数检验的范畴,主要是比较两个及两个以上样本率( 构成比)以及两个分类变量的关联性分析。
  • 其根本思想就是在于比较理论频数和实际频数的吻合程度或拟合优度问题。

常用的数据挖掘工具

  • SPSS
  • SAS
  • SQL Server
  • Weka
  • Matlab
  • R语言
  • Python
本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2021-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 前言
  • 数据仓库的三层数据结构
  • 数据仓库的数据特征
  • 数据仓库的数据ETL过程
  • 多维数据模型和星模式
  • 数据挖掘的过程
  • 数据挖掘的主要功能
  • 数据挖掘的常用方法
  • 数据仓库与数据挖掘的联系
  • 数据仓库与数据挖掘的区别
  • 数据挖掘的应用领域
  • 卡方检验
  • 常用的数据挖掘工具
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档