2017/12/18
MONDAY
实时处理:Flume+Kafka+Storm+Mongo
数据实时处理是指通过Flume进行数据的的采集,将数据推送给Kafka,kafka作为数据的缓存层。Storm作为kafka的消费者,对采集上来的数据进行实时处理,并通过Web在前端进行展示。与此同时,我们能够实时统计和分析车辆的在线总数,轨迹点总数,对此做一些相关应用。
数据来源
主要是通过Nginx 服务器获取GPS数据和MSp数据,数据格式为json
数据采集
通过Flume的拦截器对日志进行预处理,将数据存储在缓存层kafka
数据统计
通过Storm实时拉取数据做计算,将临时结果数据存储在Redis
数据落地
最终的数据存储在Mongo中,定时获取Redis中的数据存储在Mongo
Web展示
通过查询数据库,定时更新前端页面,可以查看车辆停留点,实时位置,历史轨迹以及行车里程等信息
离线批量处理 :hadoop +Hbase+Phoenix
数据离线处理是指是通过GPS点数据,分析车辆的一些行为特点。例如:车辆的最大速度,最小速度,停留点,急加速,急减速等相关指标。
离线处理主要通过Hadoop分布式存储+MR分布式运算的框架,对海量数据进行批量的统计和分析。
1、分析车辆GPS点数据,通过MapReduce调用抓路纠偏引擎,获取GPS点的道路相关信息,生产批量临时文件。
2、通过Phoenix 加载中间数据到Hbase中,通过查询HBase这个数据仓库获取各个指标计算,例如道路等级,行政区划排行,以及车的归属地,车速等。通过数据的建模和历史数据的统计和分析,能够对车辆以及驾驶行为做出有效的判段。
当下,我们正处于一个多维度的大数据时代。
而其中几乎所有的大数据都需要而且可以与地理时空数据融合,所以地理空间信息在大数据分析过程中变得更加重要,许多行业的大数据需要与地理空间数据相结合,才能做出更合理的分析。
而我秀中国针对大数据的位置属性,结合各行业的特点,建立大数据分析、大数据决策的场景,分析行业需求,可以为政府、科研机构和行业企业提供有力的预研、决策数据支撑和可视化展示服务。
本文作者:秀友科技高级研发工程师 安国安
领取专属 10元无门槛券
私享最新 技术干货