大数据的家:试着画个云平台

梳理巩固一下最近学习的内容,试着画个云计算大数据平台。其实更准确的应该叫,在云平台上用机器学习的算法计算大数据,这就把云计算、人工智能、大数据这几个大词儿串起来了。学习来源主要是同事推荐的一片文章《

终于有人把云计算、大数据和人工智能讲明白了

》和“炼数成金”的一个数据库设计课程里的相关内容。

当然只是个极其粗略的框架理解,细节完全不懂。

IaaS(Infranstracture as a Service)基础设施层。这是云平台的最底层。物理层面是大量的成百上千的服务器,包括计算处理、存储、网络三方面的硬件资源。这些资源怎么做到按需分配,灵活高效实用,是一件极其复杂和专业的事情。这个层面就是解决这个问题,让计算资源实现时间和空间上的灵活性。

PaaS(Platform as a Service)平台应用层。这一层主要是大量的计算资源用来做什么。任何应用都分为两部分:底层的数据库,调用或分析数据的软件。所以这层也分为DaaS层和SaaS层。

DaaS(Data as a Service)数据层。我们说大数据的家,主要是这一层,就是合理的储存保管数据,叫作大数据仓库(data warehouse)。数据仓库有两种:一种是储存结构化关系型数据,各种表啊什么的,这个数据量不大,比较传统的了;另一种是全量数据仓库,储存非机构化或半结构化的原始数据,比如图片啊、视频啊、网页啊什么的,这个是比较新的流行的技术,所谓大数据也主要指这个,比如hadoop就属于基于分布计算技术的全量数据仓库模式。

数据源。上面说云平台的DaaS层数据仓库,那么仓库里的数据从哪来呢?这个也比较关键,就是数据源。数据源大概有两种:一种是终端数据采集设备,这个好理解,比如路上探头抓拍的照片、视频,可以直接就进入数据仓库。另一种是来自各种OLTP类型的数据库,多数是不同时期根据业务需要逐步建设的一个个数据库。

什么是OLTP呢?On LineTransactionProcessing,主要是支持业务处理的数据库,比如我们交警路面执法系统,民警现场处罚后马上数据传进数据库了,这种触发的频率高,但每次处理的数据少。相对另外一种叫OLAP数据库,云平台的数据仓库就是OLAP,On LineAnalyticalProcessing,主要用于数据分析,触发的频率不高,但每次处理的数据量很大。

比如我们要做“一线民警工作日志”这个应用,就需要从执法系统这个OLTP数据库,把需要的执法数据提取到OLAP数据仓库,才能去分析处理,不然会影响日常路面执法工作。所以从前的很多业务信息系统现在都是云平台的数据源。

ETL,数据的抽取(extract)、转换(transform)、加载(load)。具体怎么把数据源中的数据输送到数据仓库里,也不是简单的事,需要哪些数据,数据怎么清洗,到了新的地方如何安放,等等,都是很专业的事情。所以有专门的ETL工程师

SaaS(Software as a Service)软件层。这里主要是基于不同场景和需求的应用软件。大体也分为两种:一种就是常规的统计分析,有明确应用场景和目的需求的,比如我们要做的“一线民警工作日志”,大的比如车辆的识别比对、违法证据照片自动筛查等等。还有一种软件是基于机器学习算法的,没有明确的目的,就是把海量数据扔进去,让机器学习,看看能不能得出什么规律或洞见。当然这也是为什么人工智能需要云平台和大数据。我们目前所做还基本都是第一种应用,还没有达到第二种的层次。

最后就是数据计算分析结果的可视化展现啦,就是如何让我们生动直观的看到一个结论或结果,然后就可以据此做出决策和行动。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20180607G0RIYL00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。

扫码关注云+社区

领取腾讯云代金券