Hadoop数据仓库

76 篇文章
27 人订阅

全部文章

用户1148526

HAWQ + MADlib 玩转数据挖掘之(三)——向量

一、定义         这里不讨论向量严格的数学定义。在Madlib中,可以把向量简单理解为矩阵。矩阵是Madlib中数据的基本格式,当矩阵只有一维时,就是向...

20210
用户1148526

Oracle 中 isnumeric 的三种实现

1. 利用 to_number CREATEORREPLACEFUNCTIONisnumeric (strINVARCHAR2) RETURNNUMBER IS...

1949
用户1148526

MADlib——基于SQL的数据挖掘解决方案(2)——MADlib基础

一、MADlib简介         MADlib是Pivotal公司与伯克利大学合作开发的一个开源机器学习库,提供了多种数据转换、数据探索、统计、数据挖掘和机...

21310
用户1148526

HAWQ + MADlib 玩转数据挖掘之(十二)——模型评估之交叉验证

一、交叉验证概述         机器学习技术在应用之前使用“训练+检验”的模式,通常被称作“交叉验证”,如图1所示。 ? 图1 1. 预测模型的稳定性    ...

1.7K7
用户1148526

MADlib——基于SQL的数据挖掘解决方案(1)——数据挖掘入门

一、什么是数据挖掘         数据挖掘(Data Mining),也叫数据开采、数据采掘等,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,...

1907
用户1148526

HAWQ + MADlib 玩转数据挖掘之(十)——图算法之单源最短路径

一、图算法简介 1. 定义         在计算中,常将运算方程或实验结果绘制成由若干有标尺的线条所组成的图,称为“算图”。计算时根据已知条件,从有关线段上一...

1746
用户1148526

HAWQ + MADlib 玩转数据挖掘之(八)——聚类方法之k-means

一、聚类方法简介         所谓“物以类聚,人以群分”,其核心思想就是聚类。通过聚类,人们能意识到密集和稀疏的区域,发现全局的分布模式,以及数据属性之间有...

2255
用户1148526

HAWQ + MADlib 玩转数据挖掘之(七)——关联规则方法之Apriori算法

一、关联规则简介         关联规则挖掘的目标是发现数据项集之间的关联关系,是数据挖据中一个重要的课题。关联规则最初是针对购物篮分析(Market Bas...

2056
用户1148526

HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树

一、分类方法简介 1. 分类的概念         数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定...

26910
用户1148526

HAWQ + MADlib 玩转数据挖掘之(五)——奇异值分解实现推荐算法

一、奇异值分解简介         奇异值分解简称SVD(singular value decomposition),可以理解为:将一个比较复杂的矩阵用更小更简...

19910
用户1148526

HAWQ取代传统数仓实践(十)——维度表技术之杂项维度

一、什么是杂项维度         简单地说,杂项维度就是一种包含的数据具有很少可能值的维度。事务型商业过程通常产生一系列混杂的、低基数的标志位或状态信息。与其...

2479
用户1148526

HAWQ + MADlib 玩转数据挖掘之(六)——主成分分析与主成分投影

一、主成分分析(Principal Component Analysis,PCA)简介         在数据挖掘中经常会遇到多个变量的问题,而且在多数情况下,...

1706
用户1148526

HAWQ + MADlib 玩转数据挖掘之(九)——回归方法之Logistic回归

一、回归方法简介         回归指研究一组随机变量(Y1 ,Y2 ,…,Yi)和另一组(X1,X2,…,Xk)变量之间关系的统计分析方法,又称多重回归分析...

1788
用户1148526

HAWQ取代传统数仓实践(八)——维度表技术之角色扮演维度

        单个物理维度可以被事实表多次引用,每个引用连接逻辑上存在差异的角色维度。例如,事实表可以有多个日期,每个日期通过外键引用不同的日期维度,原则上每...

20610
用户1148526

HAWQ取代传统数仓实践(九)——维度表技术之退化维度

        退化维度技术减少维度的数量,简化维度数据仓库模式。简单的模式比复杂的更容易理解,也有更好的查询性能。         有时,维度表中除了业务主键...

1885
用户1148526

HAWQ取代传统数仓实践(十六)——事实表技术之迟到的事实

一、迟到的事实简介         数据仓库通常建立于一种理想的假设情况下,这就是数据仓库的度量(事实记录)与度量的环境(维度记录)同时出现在数据仓库中。当同时...

2718
用户1148526

HAWQ取代传统数仓实践(十三)——事实表技术之周期快照

一、周期快照简介         周期快照事实表中的每行汇总了发生在某一标准周期,如一天、一周或一月的多个度量。其粒度是周期性的时间段,而不是单个事务。周期快照...

3928
用户1148526

HAWQ + MADlib 玩转数据挖掘之(四)——低秩矩阵分解实现推荐算法

一、潜在因子(Latent Factor)推荐算法         本算法整理自知乎上的回答@nick lee。应用领域:“网易云音乐歌单个性化推荐”、“豆瓣电...

24910
用户1148526

HAWQ技术解析(十六) —— 运维监控

        与任何IT系统一样,为了保证HAWQ集群的高可用和高性能,需要进行一系列监控与维护活动。本篇讨论HAWQ推荐的运维与监控活动。 一、推荐的监控与...

2048
用户1148526

HAWQ取代传统数仓实践(二)——搭建示例模型(MySQL、HAWQ)

一、业务场景         本系列实验将应用HAWQ数据库,为一个销售订单系统建立数据仓库。本篇说明示例的业务场景、数据仓库架构、实验环境、源和目标库的建立过...

2038

扫码关注云+社区