首页
学习
活动
专区
工具
TVP
发布

about云

专栏作者
216
文章
314772
阅读量
58
订阅数
湖仓一体详解
问题导读 1.什么是数据仓库、数据集市和数据湖? 2.湖仓一体化为什么诞生? 3.湖仓一体化是什么? 4.湖仓一体化的好处是什么? 0.沃尔玛纸尿裤和啤酒 在了解湖仓一体化之前,我们先来看一则有关数据仓库的有趣故事吧~ 沃尔玛拥有世界上最大的数据仓库系统,它利用数据挖掘方法对交易数据进行分析后发现"跟尿布一起购买最多的商品竟是啤酒!后来经过大量实际调查和分析,发现在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒,这是因为美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。可见大数据其实很早之前就已经伴随在我们的日常生活之中了。 那么接下来我们就来了解一下湖仓一体化的基本概念吧。 1.什么是数据仓库、数据集市和数据湖? 1.1 数据仓库 早期系统采用数据库来存放管理数据,但是随着大数据技术的兴起,大家想要通过大数据技术来找到数据之间可能存在的关系,所以大家设计了一套新的数据存储管理系统,把所有的数据全部存储到数据仓库,然后统一对数据处理,这个系统叫做数据仓库。而数据库缺少灵活和强大的处理能力。 在计算机领域,数据仓库(英语:data warehouse,也称为企业数据仓库)是用于报告和数据分析的系统,被认为是商业智能的核心组件。数据仓库是来自一个或多个不同源的集成数据的中央存储库。数据仓库将当前和历史数据存储在一起,以利各种分析方法如在线分析处理(OLAP)、数据挖掘(Data Mining),帮助决策者能快速从大量数据中,分析出有价值的信息,帮助建构商业智能(BI)。 尽管仓库非常适合结构化数据,但是许多现代企业必须处理非结构化数据,半结构化数据以及具有高多样性、高速度和高容量的数据。数据仓库不适用于许多此类场景,并且成本效益并非最佳。
用户1410343
2022-03-31
3.7K1
彻底打通实时数据仓库该如何实现及多种技术架构解析
问题导读 1.实时数据仓库有哪些特点? 2.公司构建实时数据仓库有哪些好处? 3.如何构建实时数据仓库? 4.实时数据仓库本文解析了哪些架构? 越来越多的实时数据需求,需要更多的实时数据来做业务决策,例如需要依据销售情况做一个资源位的调整;同时有些活动也需要实时数据来增强与用户的互动。如果数据有实时和离线两种方案,优先考虑实时的,如果实时实现不了再考虑离线的方式。 实时数据仓库,已经被很多公司所接受,而且接触很多About云社区会员,都在筹备搭建实时数据仓库。 1.那么实时数据仓库有哪些特点:
用户1410343
2021-01-05
1.3K0
数据治理:白话打通对Atlas的理解
问题导读 1.Atlas是什么? 2.Atlas能干什么? 3.Atlas血统关系是什么? Atlas现在被企业使用的越来越多,我们可能听说过,但是具体它是什么,能干什么的,我们可能不清楚。 因此我们要解决第一个问题,Atlas是什么? Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop生态系统集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心能力。 上面我们或许听着比较懵圈,都是啥,元数据治理是啥?为啥要元数据治理?元数据不就是用来描述数据的数据,我们这么理解没有错的,不过这个是其中重要的一项。比如Hive的元数据,那是需要第三方数据库的,大多存储到mysql中。为啥又出来一个Atlas,它能管理Hive的元数据吗?别说,还真可以的。那为啥要用Atlas来管理。这就涉及到我们的第二个问题,Atlas能干什么?。 Atlas能干什么? 其实很多大数据组件都有元数据管理,比如: Hive保存在外部数据库中,比如Mysql Hadoop元数据保存在Namenode,元数据的存储格式:data/hadoopdata/目录下 name:元数据存储目录 namenode存储元数据的存储目录 Kakfa元数据一般保存在zookeeper中 等等以上,我们的元数据每个大数据组件都有保存的地方,为啥还需要Atlas。 上面元数据是为了功能而生,都是单独的系统,散落在各个组件中,而我们能不能把这些元数据统一管理,而且数据的变化我们也能看到那就更好了。而且如果能把我们整个集群的大数据组件的元数据我们都能看到,那就更好了。看到这些有什么好处?比如我们想找到Hive有哪些表,想查看我们数据是怎么来的。这时候数据管理工具就产生了--Atlas,用来管理元数据的平台。 我们知道了Atlas是什么,能干什么,可能是比较通透了。可是还不够详细,那么接下来我们看看Atlas有哪些功能,有什么特点。这里直接借用《大数据治理与安全从理论到开源实践》书中内容。
用户1410343
2019-12-30
2.5K0
比Hive快279倍的数据库-ClickHouse到底是怎样的
1.什么是ClickHouse? 2.ClickHouse适合哪些场景? 3.为什么面向列的数据库查询如此快? 1.什么是ClickHouse ClickHouse是一个面向列的数据库管理系统(DBMS),用于在线分析处理查询(OLAP)。 在“传统”面向行的DBMS中,数据按以下顺序存储:
用户1410343
2018-12-11
7.5K0
kafka sql入门
问题导读 1.kafka sql与数据库sql有哪些区别? 2.KSQL有什么作用? 3.KSQL流和表分别什么情况下使用?
用户1410343
2018-07-26
2.4K0
深入理解HBase的原理及系统架构
物理上来说,HBase是由三种类型的服务器以主从模式构成的。这三种服务器分别是:Region server,HBase HMaster,ZooKeeper。
用户1410343
2018-07-26
6460
大数据融合将解锁物联网真正潜力
随着洛杉矶CES大会的落幕,局势渐渐明朗:2015年将成为物联网元年。从牙刷可以安排体检到瑜伽垫可以实时分析你的动作,今年的CES大会上,3000多家企业推出了超过2000件新产品。 对于物联网这个概念我们显然已经不陌生了。实际上,Gartner公司预测物联网设备的数量在2020年将增长到250亿。 由于便捷性的驱动和对曾经无法实现技术的迷恋,消费者将持续补充他们的电子产品仓库。随着联网设备增多,他们将会把目光转向商业,来提高互联性和用户体验。超前的用户体验意味着为这些设备创造出一条新的路——无缝互联。 现
用户1410343
2018-03-27
6370
机器学习算法入门
问题导读 1.什么是程序? 2.什么是算法? 3.什么是机器学习算法? 4.机器学习的主要任务是什么? 5.机器学习+数据库=? 6.什么是自然语言处理? 什么是程序(Program) 计算机程序,是指为了得到某种结果而可以由计算机(等具有信息处理能力的装置)执行的代码化指令序列(或者可以被自动转换成代码化指令序列的符号化指令序列或者符号化语句序列)。 通俗讲,计算机给人干活,但它不是人,甚至不如狗懂人的需要(《小羊肖恩》里的狗是多么聪明可爱又忠诚于主人)。那怎么让它干活呢,那就需要程序员用某种编程
用户1410343
2018-03-27
6710
大数据到底如何在企业中发挥价值
一、企业大数据如何起步:从小数据到大数据 目前国内外关于大数据的谈论很多,大多是谈运营级别的,或者说从服务端、服务方提得较多一些。笔者要跟大家交流的问题是作为各类企业尤其是客户方的企业来说,大数据跟他们有什么关系,或者说作为企业方怎样去参与,这是企业方现在面临的最大问题。   这个问题的答案重点在于大数据应该从小数据开始。因为现在很多企业面临的最大问题不是怎么用大数据,而是内部的一些小数据整合出现问题,或者小数据都没用好的情况下怎么用大数据。大数据应该是从小数据逐渐演变上去的,是一个正常的生态,而不是瞬间变
用户1410343
2018-03-27
1K0
spark入门基础知识常见问答整理
一. Spark基础知识 1.Spark是什么? UCBerkeley AMPlab所开源的类HadoopMapReduce的通用的并行计算框架 dfsSpark基于mapreduce算法实现的分布
用户1410343
2018-03-27
1.2K0
Kafka权威指南 —— 1.2 初识Kafka
什么是Kafka Apache Kafka是一个基于分布式日志提交机制设计的发布订阅系统。数据在kafka中持久化,用户可以随时按需读取。另外数据以分布式的方式存储,提高容错性,易于扩展。 Message和Batches Kafka中最基本的数据单元是消息message,如果使用过数据库,那么可以把Kafka中的消息理解成数据库里的一条行或者一条记录。消息是由字符数组组成的,kafka并不关系它内部是什么,索引消息的具体格式与Kafka无关。消息可以有一个可选的key,这个key也是个字符数组,与消息
用户1410343
2018-03-26
1.4K2
构建高并发高可用的电商平台架构实践1
问题导读: 1.如何构建高并发电商平台架构 2.哈希、B树、倒排、bitmap的作用是什么? 3.作为软件工程师,该如何实现读写? 4.如何实现负载均衡、反向代理? 5.电商业务是什么? 6.基础中间
用户1410343
2018-03-26
1.5K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档