HDFS上进行各项操作,可以操作结构化,半结构化,非结构化数据,和Hive相比Hive只能操作结构化数据
Hbase : 一个NoSql的数据库,Hbase的数据操作基本可以做到实时,比如一些短链接很大一部分使用...使用内存分布数据集,内存计算下,Spark 比 Hadoop 快100倍....大家要注意通过大数据分析原始数据都是存在的可以通过多个维度进行分析不局限,而业务汇总往往只是一个总数已经丢失了所有的维度,如果统一有误直接影响数据结构,而大数据只要改一下查询的方式就好了)
来自一份日志的生命周期...试试计算处理到mysql库和hive库中
Go程序会提前建立好Hive和Hbase中的表结构(按照每天分表),Go收到数据会进行配置的规则解析并且写入数据到Hbase中
Hbase和Hive进关联,并且每天定时对数据进行汇总分区...,最终日志会存放到Hadoop-HDFS中
Sqoop会把Mysql的数据同步到HIVE库中,Spark对数据进行离线分析得到需要的结构存入HIVE,Sqoop吧处理的数据在同步会Mysql
使用Presto