前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >白话讲解商业智能 BI、数据仓库 DW和数据挖掘 DM

白话讲解商业智能 BI、数据仓库 DW和数据挖掘 DM

作者头像
润森
发布2020-04-26 15:49:27
9890
发布2020-04-26 15:49:27
举报
文章被收录于专栏:毛利学Python毛利学Python

商业智能 BI、数据仓库 DW、数据挖掘 DM

商业智能BI(Business Intelligence) 。相比于数据仓库、数据挖掘,它是一个更大的概念。商业智能可以说是基于数据仓库,经过了数据挖掘后,得到了商业价值的过程。所以说数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金。

数据仓库DW(Data Warehouse) 。它可以说是 BI 这个房子的地基,搭建好 DW 这个地基之后,才能进行分析使用,最后产生价值。数据仓库可以说是数据库的升级概念. 和数据库并无明显差别都是通过数据库技术来存储数据的。数据仓库将原有的多个数据来源中的数据进行汇总、整理而得。数据进入数据仓库前,必须消除数据中的不一致性,方便后续进行数据分析和挖掘。

数据挖掘DM(Data Mining) 。在商业智能 BI 中经常会使用到数据挖掘技术。数据挖掘的核心包括分类、聚类、预测、关联分析等任务,通过这些炼金术,我们可以从数据仓库中得到宝藏,比如商业报告。

元数据 and 数据元

元数据(MetaData): 描述其它数据的数据,也称为“中介数据”。数据元(Data Element): 就是最小数据单元。

在生活中,只要有一类事物,就可以定义一套元数据。举个例子,比如一本图书的信息包括了书名、作者、出版社、ISBN、出版时间、页数和定价等多个属性的信息,我们就可以把这些属性定义成一套图书的元数据。

在图书这个元数据中,书名、作者、出版社就是数据元。你可以理解是最小的数据单元。元数据最大的好处是使信息的描述和分类实现了结构化,让机器处理起来很方便。

_元数据的作用:

元数据可以很方便地应用于数据仓库。比如数据仓库中有数据和数据之间的各种复杂关系,为了描述这些关系,元数据可以对数据仓库的数据进行定义,刻画数据的抽取和转换规则,存储与数据仓库主题有关的各种信息。而且整个数据仓库的运行都是基于元数据的,比如抽取调度数据、获取历史数据等。

数据挖掘的流程

数据挖掘(Knowledge Discovery in Database)数据库中知识发现,简称KDD。在数据挖掘中有几个非常中要的任务分别是分类,聚类,预测和关系分析。

1.分类:

就是通过训练集得到一个分类模型,然后用这个模型可以对其他数据进行分类。

训练集和测试集的概念:

一般来说数据可以划分为训练集和测试集。训练集是用来给机器做训练的,通常是人们整理好训练数据,以及这些数据对应的分类标识。通过训练,机器就产生了自我分类的模型,然后机器就可以拿着这个分类模型,对测试集中的数据进行分类预测。同样如果测试集中,人们已经给出了测试结果,我们就可以用测试结果来做验证,从而了解分类器在测试环境下的表现。

2.聚类:

人以群分,物以类聚。聚类就是将数据自动聚类成几个类别,聚到一起的相似度大,不在一起的差异性大。我们往往利用聚类来做数据划分。

3.预测:

就是通过当前和历史数据来预测未来趋势,它可以更好地帮助我们识别机遇和风险。

4.关系分析:

就是发现数据中的关联规则,它被广泛应用在购物篮分析,或事务数据分析中。比如某宝中的物品绑定推送。

数据库中知识发现(KDD)过程:

输入数据 --> 数据预处理(特征选择,维规约,规范化,选择数据子集) --> 数据挖掘 --> 后处理(模式过滤,可视化,模式表示) --> 信息

数据预处理时进行的步骤:

1.数据清洗

主要是为了去除重复数据,去噪声(即干扰数据)以及填充缺失值。

2.数据集成

是将多个数据源中的数据存放在一个统一的数据存储中。

3.数据变换

就是将数据转换成适合数据挖掘的形式。比如,通过归一化将属性数据按照比例缩放,这样就可以将数值落入一个特定的区间内,比如 0~1 之间。

白话讲解:

比如你认识了两个漂亮的女孩。

商业智能 会告诉你要追哪个?成功概率有多大?

数据仓库 会说,我这里存储了这两个女孩的相关信息,你要吗?

其中每个女孩的数据都有单独的文件夹,里面有她们各自的姓名、生日、喜好和联系方式等,这些具体的信息就是 数据元 ,加起来叫作 元数据

数据挖掘 会帮助你确定追哪个女孩,并且整理好数据仓库,这里就可以使用到各种算法,帮你做决策了。

你可能会用到 分类算法 。御姐、萝莉、女王,她到底属于哪个分类?

如果认识的女孩太多了,多到你已经数不过来了,比如说 5 万人!你就可以使用 聚类算法 了,它帮你把这些女孩分成多个群组,比如 5 个组。然后再对每个群组的特性进行了解,进行决策。这样就把 5 万人的决策,转化成了 5 个组的决策。成功实现降维,大大提升了效率。如果你想知道这个女孩的闺蜜是谁,那么 关联分析算法 可以告诉你。如果你的数据来源比较多,比如有很多朋友给你介绍女朋友,很多人都推荐了同一个,你就需要去重,这叫 数据清洗 ;为了方便记忆,你把不同朋友推荐的女孩信息合成一个,这叫 数据集成 ;有些数据渠道统计的体重的单位是公斤,有些是斤,你就需要将它们转换成同一个单位,这叫 数据变换

最后你可以进行数据可视化了,它会直观地把你想要的结果呈现出来。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2020-04-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小刘IT教程 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 元数据 and 数据元
  • 数据挖掘的流程
  • 白话讲解:
相关产品与服务
数据集成
数据集成(DataInLong)源于腾讯开源并孵化成功的 ASF 顶级项目 Apache InLong(应龙),依托 InLong 百万亿级别的数据接入和处理能力支持数据采集、汇聚、存储、分拣数据处理全流程,在跨云跨网环境下提供可靠、安全、敏捷的全场景异构数据源集成能力。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档