专栏首页ellipse数据库技术数据仓库与数据挖掘

数据仓库与数据挖掘

数据仓库:面向主题的、集成的、非易变的、随时间变化的数据集合,用以支持决策

数据库为事务处理服务

数据仓库的基本特征包括以下几个方面:1)数据仓库面向主题。2)数据集成。3)数据相对稳定。4)数据反映历史变化。

数据集市是一种更小、更集中的数据仓库,解决数据仓库分析时间长,代价高的确定

数据集市不等于数据仓库,数据集市的简单合并不能成为数据仓库

(1)数据仓库数据模型

数据仓库和OLAP操作基于多维数据模型。

多维数据模型概念:度量属性(决策者关心的实际意义的数量)、维属性(观察数据的角度,如时间、地理等)、维的层次(年、月、日为时间维的层次,国家、地区、城市为地理维的层次)

多维数据:能够模式化为维属性和度量属性的数据统称为多维数据。多维数据构成了数据立方体

多维存储模型涉及两类表:维表和事实表,常用的多维模式为星型(一个事实表和多个维表组成)和雪花型(将维表组织为层次结构)模式。

数据仓库利用位图索引实现高性能访问。

(2)数据仓库的体系结构

数据仓库系统组成:数据仓库(DW)、仓库管理和分析工具(查询工具和挖掘工具)元数据是数据仓库的核心

三层客户机/服务器结构:数据仓库服务器、OLAP(联机分析服务器,包括关系OLAP(ROLAP),多维OLAP(MOLAP))和客户端。

(3)联机分析:切片、切块、钻取(向下钻取(取得细节数据),向上钻取(取得综合数据))和旋转(行列交换)等。

(4)数据挖掘

知识发现识别数据库中以前不知道的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程数据挖掘是知识发现的核心工作和步骤。

知识发现(KDD)过程:数据准备、数据挖掘以及结果的解释和评估

可视化技术在数据挖掘过程中扮演了重要的作用。

数据挖掘常用的方法包括以下几个方面:

(1)关联规则挖掘(支持度:规则代表的事例占全体事例的比例;可信度:规则代表的事例占前提条件事例的比例)。

(2)分类。 (3)聚类分析。(4)预测。(5)优化

WEB挖掘:从WWW的资源和行为中抽取感兴趣的、有用的模式和隐含的信息。可分为三类:Web内容挖掘(从文档内容或文档描述中抽取知识的过程)、Web结构挖掘(从WWW的组织结构和链接关系中挖掘知识,发现重要页面,对页面排序)和Web使用记录挖掘(从Web的访问记录中抽取感兴趣的模式,提供个性化服务)

本文分享自微信公众号 - ellipse数据库技术(ellipse16)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-07-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 为什么要学Python编程 到底Python值不值得学

    为什么要学Python编程?到底Python值不值得学​?Python在软件质量控制、提升开发效率、可移植性、组件集成、丰富库支持等各个方面均处于先进地位。同样...

    一墨编程学习
  • 转型进入IT行业,0基础学习大数据开发需要什么基础?

    IT行业发展速度快,市场需求大,而且,程序员薪酬高、福利待遇高,成为很多从业者向往的职业,当然,也刺激了很多非计算机专业的从业者进入该领域。转行进入IT行业在最...

    一起学习大数据
  • 向Excel说再见,神级编辑器统一表格与Python

    很多开发者说自从有了 Python/Pandas,Excel 都不怎么用了,用它来处理与可视化表格非常快速。但是这样还是有一大缺陷,操作不是可视化的表格,因此对...

    用户2769421
  • 我的跨专业数据分析转行之路

    其实销售并不是大家想的那样,在路边向陌生人推销东西,互联网公司的销售对数据的依赖比我们想象的要大得多。提高销售人员拜访效率的秘密武器就是对庞大的客户群产生的数据...

    CDA数据分析师
  • 数据竞赛专题 | 数据探索-从数据中发现隐藏价值

    为了帮助更多竞赛选手入门进阶比赛,通过数据竞赛提升理论实践能力和团队协作能力。DataFountain 和 Datawhale 联合邀请了数据挖掘,CV,NLP...

    Datawhale
  • KDD 2019大奖新鲜出炉!华人博士勇夺最佳论文,“中国队”横扫KDD CUP

    第25届ACM SIGKDD(数据挖掘及知识发现)于2019年8月4日-9日在美国阿拉斯加安克雷奇市举办。

    新智元
  • [个推 CTO 谈数据智能] 之本质及技术体系要求

    安森,个推CTO 毕业于浙江大学,现全面负责个推技术选型、研发创新、运维管理等工作,已带领团队开发出针对移动互联网、金融风控等行业的多项前沿数据智能解决方案。

    个推君
  • 入职数据分析岗,该拥有的必备条件!

    入行之后,我才发现数据分析其实可以分为两种:一种类似产品经理、一种偏向数据挖掘,类似产品经理向更加注重业务,对业务能力要求比较高;数据挖掘向更加注重技术,对算法...

    1480
  • 这100多个数据分析常用指标和术语你都分清楚了吗?

    有个朋友是金融行业产品经理,最近在对已有的站内用户做分层与标签分类,需要对用户进行聚类分析。一般从事数据分析行业的朋友对这类词并不陌生,但是像市场运营人员就会把...

    1480
  • 华人夺魁,「魔球」理论获奖:KDD 2019所有奖项出炉

    第 25 届 ACM SIGKDD 知识发现和数据挖掘会议(KDD)已于今年 8 月 4 日在美国阿拉斯加州安克雷奇开幕。今年的大会奖项分为研究方向和应用数据科...

    机器之心

扫码关注云+社区

领取腾讯云代金券