One.何为数据仓库
答:数据仓库是一个可以存储海量数据的数据库,目的是专门应用于数据分析进行决策的数据仓库的输入数据源是各种格式的。那么从数据仓库处理后的数据可用于数据挖掘,数据分析.
Two.数据仓库的特点
第一点:数据仓库的存储是面向主题的,这也是数据仓库可以存储各种不同行业的不同数据源的原因,你可以选择餐饮业的订单信息,也可以选择存储某App用户行为数据.你可以按照主题存储完全不相关的各行业数据。
第二点:数据存储的都是海量历史数据,所以数据只支持查询和增加,不支持修改,毕竟数据仓库的作用是做数据分析
第三点:虽然数据源的格式各种各样,但是处理过后输出的数据的格式是要进行统一处理的(理想格式)
Three:数据仓库与数据清洗的关系
刚才也说到了数据仓库的数据源是多种多样的,比如有文本格式(TXT),Excel表格式,各个数据里面的数据等.
所以为了保证存储在数据仓库中的数据是理想格式,所以我们就要对各种各样的数据源进行数据处理也就是数据清洗,数据清洗主要分为三个步骤:
a.数据抽取:读取数据源
b.数据转换:把读取过来的各种格式的数据源转换成理想格式以及数据处理
c.数据加载:就是将处理后的数据加载到数据仓库里或者其他位置
Four:大数据中常用的数据仓库
hive:蜂巢。
hive是基于Hadoop hdfs之上的数据仓库组件,它的作用就是可以对存储在hdfs之上的海量数据进行数据分析和数据查询的处理.
Five.hive的特点:
a.类sql语句,也叫做hql,使用简单,会mysql数据库就可以使用。
b.hive编译器会将sql语句编译成mr任务运行,所以不需要我们人员去写,学习成本降低
c.hive适合处理海量数据,但是尴尬的是hive对于处理少量数据也并没有优势离线处理,处理时间较长。
领取专属 10元无门槛券
私享最新 技术干货