到了互联网时代,由于上网用户剧增,特别是移动互联网时代,海量的网络设备,导致了海量的数据产生,企业需要也希望从这些海量数据中挖掘有效信息,如行为日志数据,业务数据,爬虫数据等等中提炼出有价值信息.但传统的关系型数据库由于本身技术限制...经典数仓分层架构
其实数仓数据分层,就跟代码分层一样.如果所有数据都放在一层,就跟代码都放在一个文件,肯定是可以运行的,但带来的问题就是阅读性差,复用性和维护性降低....一般企业开发时,都会对原始数据存入到ODS时,做一些最基本的处理
数据来源区分
数据按照时间分区存储,一般是按照天,也有公司使用年,月,日三级分区做存储的
进行最基本的数据处理,如格式错误的丢弃,关键信息丢失的过滤掉等等...hive的外部表,对应的是业务表;
hive外部表,存放数据的文件可以不是在hive的hdfs默认的位置,并且hive对应的表删除时,相应的数据文件并不会被删除.这样对于企业开发来说,可以防止因为删除表的操作而把宝贵的数据删除掉...大数据开发,使用hive时,一般都是使用外部表
create external table xxx(
)
ODS层的文件格式
如果数据来自于日志文件,一般和原始日志文件格式一样.