到了互联网时代,由于上网用户剧增,特别是移动互联网时代,海量的网络设备,导致了海量的数据产生,企业需要也希望从这些海量数据中挖掘有效信息,如行为日志数据,业务数据,爬虫数据等等中提炼出有价值信息.但传统的关系型数据库由于本身技术限制...字段缺失
数据字段不统一
格式错误
关键信息丢失等等
数据来源混杂
数据类型不一,例如json,xml,text,csv的,压缩了的,没有压缩的等等....,不过这具体要看业务需求.这是因为kylin适合处理展平后数据,不适合处理嵌套的表数据信息....,不过一般都是格式化为YYYY-MM-dd HH:mm:ss 这类标准格式
注意,事实表中数据,一般不是所有维度都按照维度主键做信息存储....用来描述信息的,如优惠券表,促销表.内部就是一些描述信息.这种一般看数据量以及变化程度,大部分时候都是全量导入,导入周期则看具体而定.
id mapping
考虑如下情况:
对于互联网企业来说,目前用户来源基本就是