前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >淘宝大数据之流式计算

淘宝大数据之流式计算

作者头像
希望的田野
发布2019-09-24 16:51:21
2K0
发布2019-09-24 16:51:21
举报
文章被收录于专栏:信息化漫谈信息化漫谈

到底什么是大数据?大数据与数据统计有什么区别?如果不理解大数据的承载底层技术,很难讲清楚。因此作为解决方案经理,技术与业务都是作为方案不可缺少的组成部分。今天我们来看一下大数据之流式计算。

一、流式计算的应用场景

我们上一章讲到了数据采集。数据采集之后,如何利用数据呢?将采集的数据快速计算后反馈给客户,这便于流式计算。 流式计算在物联网、互联网行业应用非常之广泛。在电商“双11”节中,不断滚动的金额数据;在交通展示大通,不断增加的车辆数据,这些都是流式计算的应用场景。

二、数据时效性的三种分类

离线:在今天(T)处理N天(N>1)前的数据,延迟时间粒度为天。例如我们想统记手环记录的全年分24小时的每小时跑步数情况。

准实时:在当前小时(H)处理N小时前(N>1)小时前的数据,延延时间粒度为小时。

实时:在当前时刻处理当前的数据,延迟时间粒度为秒。例如,我们想实时展示全市的各采集点的空气质量情况。

三、离线、流式数据的处理要求

1、对于离线、准实时数据都可以在批处理系统中实现(比如MapReduce、MaxCompute),对于此类数据,数据源一般来源于数据库(HBase、Mysql等),而且采用了分布式计算,因此具有处理时间长、处理数据量大的特别,MapReduce不适合处理实时数据。

2、流式数据是指业务系统每产生一条数据,就会立刻被发送至流式任务中进行处理,而不需要定时调度任务来处理数据。中间可能会经过消息中间件(MQ),作用仅限于削峰等流控作用。

四、流式数据的特点

1、时间效高。数据采集、处理,整个时间秒级甚至毫秒级。

2、常驻任务、资源消耗大。区别于离线任务的手工、定期调度,流式任务属于常驻进程任务,会一直常驻内存运行,计算成本高。

3、性能要求高。如果实时任务1分钟只能处理30秒钟采集的数据,那么只能造成系统崩溃。

4、应用局限性。实时数据处理不能代替离线处理。例如想统计过去一年的电商消耗金额,这个任务不需要随时执行,只需要一次;如果用实时数据处理只是浪费社会资源。

五、流式数据的技术架构

1、数据采集

数据的源头,一般来自于业务的日志服务器或物联网终端等。这些数据被实时采集到数据中间件,供下游订阅。

2、数据处理

下游任务(Spark、Storm、Flink、StreamCompute等应用)实时订阅数据,并进行实时数据处理。

3、数据处理

数据实时加工后,会被写到个在线服务存储系统(一般是Redis、MangoDB、HBase等高速数据库)借助大屏应用读取。

4、数据服务

通过UI、BI等界面展示程序,将数据实时投影到大屏中,形成大家看到的图形、不断变幻的数字。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2019-09-12,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 信息化漫谈 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档