首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

技术资源推荐数据仓库篇)

0x00 前言 前段时间有不少朋友让推荐一些数据仓库的书出来,本着“如果重复三次回答同一个问题,就应该写一篇博客”的原则,在这里梳理一下数据仓库相关的资源给大家。...0x01 书籍推荐 一、数据仓库工具箱(第3版):维度建模权威指南 英文名:《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling...所以强烈推荐看了这本书,至少是前5五章。...推荐这本书的原因就在于现在大部分互联网公司的数据仓库都是基于这一套大数据框架来的,更准确的来讲,大家其实都是先工程,后理论,因此这本书可以作为对大数据生态的一览。...有一本小书推荐给大家:《数据仓库实践》,地址:http://www.mdjs.info/2018/01/01/data-warehouse/data-warehouse-in-action/。

3.9K31

推荐数据仓库的必读书

0x00 前言 数仓的必读书,其实已经推荐过好几次了,但是最近依旧有很多朋友在群里问数据仓库入门看什么书,索性接着视频号的讲稿,给大家再分享一次。 很多读者私信问居士,学习数据仓库该看什么书!...今天,居士就给大家分享居士认为必读的三本: 0x01 推荐 前两本书,一本是《数据仓库工具箱:维度建模权威指南》,一本是《数据仓库》。 两本分别代表了数据仓库建模中的两大流派:维度建模和范式建模。...因此,就要推荐第三本书,也是居士逢人必推的一本:《大数据之路:阿里巴巴大数据实践》。...该书可作为整个数据体系建设的参考书,从数据平台到数据仓库到数据应用,都有比较不错的讲解。...0xFF 总结 如果上面三本书觉得不够,也可以看一下居士写的关于数据仓库的文章,其中有一篇维度建模的文章在Google搜索里面也排到第一了。 当然,如果你有推荐的书,也可以留言出来~

1.1K21
您找到你想要的搜索结果了吗?
是的
没有找到

【案例】农业银行大数据平台项目——海量数据复杂运算处理

南大通用GBase 8a MPP Cluster产品也发展成为国内企业大数据、数据仓库领域基础平台软件的领先产品。...2013年8月,农行数据仓库正式立项,确定采用南大通用GBase 8a MPP Cluster与Hadoop的混搭架构。...2013年11月30日,数据仓库原型集群及资负、零售数据集市试运行(28节点MPP集群)。...2014年11月,数据仓库原型环境向生产环境(56节点MPP集群)的迁移与切换工作完成,迁移有效数据103T。 2014年12月,完成财会集市(16节点MPP集群)搭建。...关键技术2:MPP集群活架构示意图 通过运用GBase 8a MPP集群间同步工具识别主集群增量数据(以DC为单位),点对点传输至备集群,实现主备集群数据一致;同时结合大数据平台批量加工调度平台

7.3K100

Spark机器学习实战 (十二) - 推荐系统实战

推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统。...1 推荐系统简介 1.1 什么是推荐系统 1.2 推荐系统的作用 1.2.1 帮助顾客快速定位需求,节省时间 1.2.2 大幅度提高销售量 1.3 推荐系统的技术思想 1.3.1 推荐系统是一种机器学习的工程应用...Chih-Jen) 2 推荐系统原理 可能是推荐系统最详细且简单的入门教程 官方文档指南 协同过滤 协同过滤通常用于推荐系统。...MovieLens有一个网站,您可以注册,贡献自己的评分,并接收由GroupLens组实施的几个推荐者算法这里之一的推荐内容。...基于Spark的机器学习实践 (九) - 聚类算法 基于Spark的机器学习实践 (十) - 降维算法 基于Spark的机器学习实践(十一) - 文本情感分类项目实战 基于Spark的机器学习实践 (十二

1.1K30

数据库架构比较

这通常会使这个选项变得昂贵,尽管(理论上)它可以部署在廉价的商用服务器上,实际上,它通常部署在具有冗余磁盘,网络连接和电源的企业级硬件上。...MPP体系结构是数据仓库和分析平台的出色解决方案,因为查询可以分解为组件部分,并在服务器之间并行执行,从而显着提高性能。...“通过大规模并行处理(MPP)设计,查询通常比在对称多处理(SMP)系统上构建的传统数据仓库快50倍”。-微软公司。...成本和高可用性:一些基于MPP数据仓库解决方案旨在在廉价的商用硬件上运行,而无需可能包含成本的企业级冗余组件。这些解决方案通常使用自动数据复制来提高系统弹性并确保高可用性。...在此期间,关于数据仓库是否已经死亡以及Hadoop是否会取代 MPP平台的讨论很多,尽管普遍的共识似乎表明Hadoop充其量只是数据仓库的补充技术; 不是它的替代品。 什么是Hadoop?

4K21

Spark机器学习实战 (十二) - 推荐系统实战

推荐系统项目中,讲解了推荐系统基本原理以及实现推荐系统的架构思路,有其他相关研发经验基础的同学可以结合以往的经验,实现自己的推荐系统。...1 推荐系统简介 1.1 什么是推荐系统 [1240] [1240] [1240] 1.2 推荐系统的作用 1.2.1 帮助顾客快速定位需求,节省时间 1.2.2 大幅度提高销售量 1.3 推荐系统的技术思想...1.3.1 推荐系统是一种机器学习的工程应用 1.3.2 推荐系统基于知识发现原理 1.4 推荐系统的工业化实现 Apache Spark [1240] Apache Mahout [1240] SVDFeature...(C++) [1240] LibMF(C+ +,Lin Chih-Jen) [1240] 2 推荐系统原理 [1240] 可能是推荐系统最详细且简单的入门教程 官方文档指南 协同过滤 协同过滤通常用于推荐系统...Spark的机器学习实践 (九) - 聚类算法 基于Spark的机器学习实践 (十) - 降维算法 基于Spark的机器学习实践(十一) - 文本情感分类项目实战 基于Spark的机器学习实践 (十二

2.8K40

数据仓库模型全景

前面讲了数据仓库的价值、构建思路、实例,完成数据仓库的概念、逻辑、物理模型设计后,数仓的产品选型也是需要考虑的部分,根据数据存储量、查询效率、并发能力可以选用MPP数仓和基于Hadoop的分布式数仓等...一、MPP还是Hadoop 这里继续用之前用到的图讲解,数据仓库的特性是处理温数据和冷数据,面向业务分析提供偏于离线分析能力,因此一般选用Hadoop+MPP数仓结合的解决方法,Hive能够提供大批量历史数据的存储计算能力...,Hbase能够提供半结构化文档的快速检索能力,MPP能够提供强大高压缩比基础上的快速查询能力; 二、MPP数仓特性 在MPP解决方案中目前我已接触过的是vertica和GP,在teradata实习期间没有用到...td数仓; 数仓的特性是大批量的查询和索引,少量的改查工作,MPP (Massively Parallel Processing),即大规模并行处理数据库的一般特性: ① 列式存储意味着高压缩比、高IO.../slave模式,具备统一的查询入口(master),vertica是无中心架构,所有节点都提供查询服务,gbase是存储/管理中心架构; shared nothing 模式:x86机器构建计算/存储的高扩展集群

1.2K20

MPP技术的优势与严重缺陷

MPP架构通常用于处理海量数据的应用程序,如数据仓库、商业智能和大数据分析。 MPP常见的发力场景是数据仓库。...在数据仓库中,MPP架构意味着数据库服务被部署在多个节点中,共同完成存储、分析计算任务。 常见的开源MPP数据仓库包括: 1. Apache HAWQ 2. Apache MADlib 3....它主要的优势在于: MPP数据仓库通常能够提供更高的性能和较低的查询延迟,可以在更短的时间内处理大量数据。 MPP数据仓库对于结构化数据的支持更加成熟,适用于需要对事务性数据进行复杂分析的场景。...MPP数据仓库通常拥有更完整、更可靠的数据管理和安全性能,可以保证数据的一致性和可靠性。...那么MPP的常见的缺陷就能推出: MPP数据仓库通常需要更多的硬件资源和投资,价格较高,不适合所有的企业规模和预算。 MPP数据仓库的部署和维护需要更专业的技术人员,技术门槛相对较高。

50330

Snova数仓简介

Snova为您提供简单、快速、经济高效的PB级云端数据仓库解决方案。...借助于Snova,您可以在数分钟内创建拥有数百节点的企业级云端数据仓库,并高效的完成日常维护工作;也可以使用丰富的Postgre开源生态工具,实现对Snova中海量数据的即时查询分析、ETL处理及可视化探索...性能卓越 基于分布式大规模并行处理MPP框架,可线性扩展存储及计算能力。支持行列混合存储,可按业务需求选择最佳存储方案。查询引擎深度优化,查询效率数倍于传统数据仓库。...安全可靠 节点同步冗余,实现用户无感的故障转移和容灾备份。分布式部署,计算单元、服务器、机柜三重防护,提高重要数据基础设施保障。用户集群独立部署,支持VPC隔离,数据访问安全多重保障。...借助于Snova数据仓库,在金融、零售、互联网、游戏等多个领域,可方便地搭建用于经营分析决策、海量日志分析、用户行为实时洞察等场景的一套解决方案。

1.8K20

天津农商银行数据仓库Netezza替换项目:单一来源 GBase 8a MPP Cluster

2021年8月17日,天津农商银行发布《数据仓库Netezza替换项目-国产化数据库软件项目》单一来源采购的公示: 拟采购内容:采购数据库集群系统 GBase 8a MPP Cluster软件 拟采购供应商名称...2021年8月10日,天津农商银行发布《数据仓库迁移项目》单一来源采购的公示: 拟采购内容:数据仓库迁移 拟采购供应商名称:中电金信软件有限公司 申请理由:我行数据仓库系统初期建设、后期维护、系统优化等...为保证系统架构、数据架构、模型设计、实施工艺等一致性,减少数据仓库迁移项目风险、时间投入,我行将与中电金信软件有限公司进行单一来源采购。...原厂标准服务 拟采购供应商名称:中科朗智(北京)科技有限公司 申请理由:根据新一代核心系统建设对基础软件的需求,我行购买了ORACLE数据库及配套软件,由于原厂只通过代理供应商与客户签署合同,且信息科技部为推荐供应商

88320

首次揭秘1112背后的云数据库技术!| Q推荐

从 2009 年到 2021 年,从千万交易额到千亿交易额, 11 已经开展了 12 年。如今,每年的 11 以及一个月后的 12,已经成为真正意义上的全民购物狂欢节。...是什么样的数据库撑起了 2021 年的 11 12 的稳定进行?...《数据 Cool 谈》第三期,阿里巴巴大淘宝技术部 12 队长朱成、阿里巴巴业务平台 11 队长徐培德、阿里巴巴数据库 11 队长陈锦赋与 InfoQ 主编王一鹏,一同揭秘了 11 12 背后的数据库技术...ADB 3.0(AnalyticDB for MySQL 3.0) 发布,高度兼容 MySQL 协议以及 SQL:2003 语法标准,支持对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库...在陈锦赋看来,云原生数据仓库 ADB3.0 很大的一个价值部分在于能够实现数据的在线化实时化,能够挖掘到一些目前还未被发现到的商业价值。

31.7K50

四大银行(工建农中)大数据进展如何?

中国建设银行信息技术管理部资深经理林磊明 ▼ ▼ 1、银行压力越来越大 从十二五走到十三五期间,银行业面临的各方面的压力越来越大,从我们的年报数字可以看出去年四大行的利润增长基本上趋近于零增长。...4、分布式、开源、通用成为趋势 从大数据的起源开始,数据仓库到目前的大数据新形势下,数据仓库已经在做非常大的升级换代和变化。...MPP数据库,我们搭建了活机制,两个库之间的同步加验证现在每天大概是22TB的数据,仅需要3小时。...我们做了MPP和Hadoop的交互,有些应用要交互,我们做了非结构化MPP和HDFS之间的融合。...后来启用了MPP和Hadoop之间的备份,大大提高了效率,300T也需要将近20个小时,所以我们做了活,如果活稳定的话我们就不用备份数据了。

1.9K40

【揭秘】中国四大银行的大数据应用已到了哪个阶段?

01 中国建设银行信息技术管理部资深经理林磊明 1)银行压力越来越大 从十二五走到十三五期间,银行业面临的各方面的压力越来越大,从我们的年报数字可以看出去年四大行的利润增长基本上趋近于零增长。...5)分布式、开源、通用成为趋势 从大数据的起源开始,数据仓库到目前的大数据新形势下,数据仓库已经在做非常大的升级换代和变化。...MPP数据库,我们搭建了活机制,两个库之间的同步加验证现在每天大概是22TB的数据,仅需要3小时。...我们做了MPP和Hadoop的交互,有些应用要交互,我们做了非结构化MPP和HDFS之间的融合。...后来启用了MPP和Hadoop之间的备份,大大提高了效率,300T也需要将近20个小时,所以我们做了活,如果活稳定的话我们就不用备份数据了。

75630

数据仓库构建方法论和简单实践

前面讲了数据仓库的价值、构建思路、实例,完成数据仓库的概念、逻辑、物理模型设计后,数仓的产品选型也是需要考虑的部分,根据数据存储量、查询效率、并发能力可以选用MPP数仓和基于Hadoop的分布式数仓等...一、MPP还是Hadoop 这里继续用之前用到的图讲解,数据仓库的特性是处理温数据和冷数据,面向业务分析提供偏于离线分析能力,因此一般选用Hadoop+MPP数仓结合的解决方法,Hive能够提供大批量历史数据的存储计算能力...,Hbase能够提供半结构化文档的快速检索能力,MPP能够提供强大高压缩比基础上的快速查询能力; 二、MPP数仓特性 在MPP解决方案中目前我已接触过的是vertica和GP,在teradata实习期间没有用到...td数仓; 数仓的特性是大批量的查询和索引,少量的改查工作,MPP (Massively Parallel Processing),即大规模并行处理数据库的一般特性: ① 列式存储意味着高压缩比、高IO.../slave模式,具备统一的查询入口(master),vertica是无中心架构,所有节点都提供查询服务,gbase是存储/管理中心架构; shared nothing 模式:x86机器构建计算/存储的高扩展集群

69520

机器学习(二十二) ——推荐系统基础理论

机器学习(二十二)——推荐系统基础理论 (原创内容,转载请注明来源,谢谢) 一、概述 推荐系统(recommendersystem),作为机器学习的应用之一,在各大app中都有应用。...这里以用户评价电影、电影推荐为例,讲述推荐系统。 最简单的理解方式,即假设有两类电影,一类是爱情片,一类是动作片,爱情片3部,动作片2部,共有四个用户参与打分,分值在0~5分。...这里基于内容的推荐,可以认为给定样本的特征x,求θ的过程。...这样,对于每一个新用户,在还没进行评价之前,会预测其对每个电影的评价是均值,这也就表示给新用户推荐电影时,会按均值,把均值较高的电影推荐给用户,这个比较符合常理。...七、总结 这里的推荐系统,可以算是一个引子,只介绍了推荐系统的一些基础思想,对于真正完整的推荐系统,还有需要内容等待探索。后续我也会继续这方面的学习。

1.2K30
领券