统计主站每个(指定)教程访问的客户端、地域信息分布
地域: ip转换 Spark SQL项目实战 客户端:useragent获取 Hadoop基础教程
=》如上两个操作:采用离线(Spark/MapReduce )的方式进行统计
课程编号、ip信息、useragent 进行相应的统计分析操作: MapReduce/Spark
日志收集: Flume 离线分析: MapReduce/Spark 统计结果图形化展示
看起来很简单,没什么高深的,但是现在需求改了嘛,很正常的骚操作对不对! 现在要求实时的精度大幅度提高!那么现在的架构已经无法满足需求了!
小时级别 10分钟 5分钟 1分钟 秒级别 根本达不到精度要求!
◆ 时效性高 ◆ 数据量大
◆ 实时流处理架构与技术选型
离线:HDFS历史数据,数据量较大。 实时:消息队列(Kafka),实时新增/修改记录实时过来的某一笔数据。
离线:Map + Reduce 实时:Spark(DStream/SS)
离线:速度慢 实时:快速拿到结果
离线:启动 + 销毁进程 实时: 7 * 24小时进行统计,线程不停止
Kafka、Flume一起搭配更舒服哦~