政务大数据系列6:政务大数据的物理模型

政务是个大市场,阿里、腾讯、电信、华为都在赔本赚吆喝。本文作者宇同学是资深从业人士,研发总监,他会写一系列文章来阐述政务云全景。

前面三篇分别深入阐述:

  1. 政务大数据点本质:《 浅谈政务大数据的本质
  2. 政务大数据的全景图:《政务大数据的全景图
  3. 政务大数据的上下文范围:《政务大数据的上下文范围
  4. 政务大数据的概念模型:《政务大数据的概念模型
  5. 政务大数据的逻辑模型:《政务大数据的逻辑模型

反响非常好,本篇接上一篇讲讲政务大数据的物理模型。希望大家会喜欢!

后续还有一系列文章;敬请期待。

在《政务大数据的逻辑模型》一文中提到,政务大数据在物理上分为“数据存储、数据计算和数据服务”三个重要层面,其物理模型示意图如下:

就政务大数据的物理模型整体而言,存储层是技术基础、计算层是核心能力、服务层是核心价值。立体、全方位(全面覆盖数据访问鉴权认证、数据安全传输和数据安全存储等全过程&全生命周期)的安全保障机制与体系建设是政务大数据提供和使用服务的基本前提。综合、系统化(充分运用系统工程思想,不断提升、优化整个链条的价值再生&可持续能力)的运营支撑机制与体系建设是为实现政务大数据“自治和自优化”这一最终目标做准备的。注:在《政务大数据的本质》一文中提到:“政务大数据的未来是数据自治”。

有关政务大数据的立体安全保障机制与体系建设将在后续文章《政务大数据的安全》中具体展开,有关政务大数据的综合运营支撑机制与体系建设将在后续文章《政务大数据的运营》中具体展开,本文重点讨论政务大数据的存储、计算和服务三层物理模型。

如同资源虚拟化是实现云计算的重要具体技术,大数据也离不开数据仓库、数据挖掘、决策支持、商业智能、分布式计算等传统IT技术。然而,大数据是一个更加综合、庞杂的生态体系,它需要IT技术的支撑但不仅仅是IT技术本身,其本质上还是数据,是能够资源化的、有商业价值的数据。海量数据始终存在,但以前将其存储起来是一个问题,随着存储软硬件技术的发展,容量已经不是问题,可以实际利用的海量数据就产生了。还有就是计算能力的快速发展,使得基于海量数据进行全样本的计算和分析由不可能变成现实。具体到政务大数据而言,很多时候其体量并不大,原因在于长期以来被人为的按照地域、按照职能、按照主题、按照数据类型分割了。这种分割的现状源于之前对全样本数据进行存储、通信和计算的能力局限,以及数据的价值密度过低而持有成本过高。随着互联网产业的快速发展,以及物联网、工业4.0以及机器智能技术的不断成熟,政务大数据具备了发展的土壤,也具备了发展的时机。归根到底,政务大数据的核心价值在于政务优化(协同、治理、服务和决策)。如果政务优化比作一个人的综合价值,存储层就是其记忆的信息和知识(记忆力和记忆量),计算层是其学和做的能力(智商和反应能力),服务层是其结果规划、产出能力(大局观、情商和效率)。

政务大数据的存储层从大的方面来讲就是要解决好结构化和非结构化两类数据的存储问题。这两类数据并不孤立,而且需要相互转化:非结构化的数据往往需要将其属性信息结构化,如视频、图像、声音、文档等非结构化数据所表达的主题、关键词、人物对象等信息往往会以结构化的方式予以展现;同时,结构化的信息也需要转换成非结构化的形式,比如企业或个人信用信息往往需要形成一份可读的文档型的信用报告,还有类似语音导航、智能设备的智能控制,根据矢量数据进行地图绘制以及三维建模等都是在把结构化的内容进行非结构化。因此,结构化和非结构化数据是紧密联系的,也是可以相互转化的。不太认同划分出第三类数据“半结构化”,基本上这类数据就是结构化数据和非结构化数据的混合模式。

鉴于政务信息资源的特点,其数据是结构化还是非结构化往往取决于其原始来源和用途目的的综合作用。如摄像头采集的是图形、图像信息或者音视频信息,在交通及治安执法时需要识别人物(人脸)、车牌,就需要把非结构化的图像转化为结构化的信息。又如相关物联网设备传感器采集的温度、湿度、pm2.5、甲醛等结构化数据,往往需要刻画出图文并茂的环境质量报告。再如公共资源交易信息,即有非结构化的标书、投标书、技术图纸等数据,也有结构化的交易主体、交易过程及结果信息、评审专家信息等数据。结构化和非结构化混合是常态,分别开来的时候往往是场景不同。

从具体的数据库管理平台来讲,传统的数据库如ORACLE、SQLSERVER、DB2、SYBASE、MYSQL、POSTSQL等以及达梦、人大金仓、南大通用等国产数据库多为关系型数据(SQL数据库),适合存储结构化数据、适合事务处理(强调ACID特性:Atomicity、Consistency、Isolation和Durability)。与之对应的是NOSQL(Not only Sql)数据库,这个种类比较庞杂,广义来讲面向文档的MongoDB、CouchDB等,图形(Graph)数据库Neo4j、AllegroGrap、GraphDB等,内存数据库memcached、Redis、ROMA等,面向列的Cassandra、HBase等(强调CAP特性:Consistency、Availability和Partitiontolerance)。从某种程度上来讲,NOSQL是在分布式存储的飞速发展和日益成熟而逐渐登上舞台成为SQL数据的重要补充的。当然,分布式存储并非NOSQL数据的专属,传统的关系型数据库也同样对分布式存储有较好的支持。如果说分布式计算本质是在充分共享利用关键计算资源和负载分担,那么对应于分布式计算的分布式存储就是依赖于分布式文件系统,来提高存储能力的可扩展性。

在搭建政务大数据的物理结构时,可以参考淘宝商城(采用阿里自主研发的Oceanbase和Tair),优酷(采用开放的HBase、MongoDB和Redis)等典型方案。考虑到结构化数据和非结构化数据的综合支持以及自主可控的指标,也可以采用国产数据库组合方案(DM/GBase/KingbaseES/OpenBASE/神通数据库等+SequoiaDB巨杉数据库等)或者开放的存储平台(Mysql+HBase、MongoDB和Redis)以及基于全文检索的ES(ElasticsSearch)/Apache Solr等。伴随着云计算的快速发展,致力于DaaS的云数据库也会成为搭建政务大数据存储层的重要选择(前提是安全、自主和可控三者的良好平衡)。

政务大数据的计算层是围绕着政务业务来展开的,政务大体上可以分为协同(G2G:政府对政府)、治理(G2S:政府对社会)、服务(G2C:政府对公众&G2B:政府对企业)和决策(G2S:政府对社会)四个部分。其中,政务大数据的治理和决策是政府对社会的治理和决策的重要组成部分;政务协同是政府对外提供政务服务的基础,政府各组成部门以及公务员之间通过工作协同使政务数据协同起来、聚合起来形成统一的政务信息资源库。政务的治理过程既是政府对社会的监督、管理基础上的治理,也是对政务信息资源库的数据治理。政务的服务与决策是基于政务信息资源库的,也是以政务协同和治理为前提的。在提供服务和智慧决策的过程中,政务大数据的作用十分重要。因此,在政务活动中产生的政务大数据的原始信息——政务信息资源库,需要通过关联分析、聚类分析、分类、预测、时序模式和偏差分析等数据挖掘技术以及信息组合、数学建模、相关性分析等数据计算。

政务大数据的计算层就是要把分散在各个原始存储单元中的数据进行重新组合、运算形成更全貌、综合或者更深层次、全新的数据价值。从政务的特点来看,其实时/准实时计算里既包含面向业务分析的OLAP(实时在线分析),也包含面向业务的OLTP(实时事务处理);非实时[离线]计算里,既包括面向业务分析的离线分析,也包括面向业务的离线处理。

就政务大数据而言,其计算层主要是面向业务分析的实时/准实时和离线计算。其中,政务大数据的离线计算仍是适用数据仓库基本理论:如维度表和事实表的深度融合构成维度模型;基于数据立方体实现五种基本操作(consolidation/roll-up、drill-down、slice、dice和pivot);融合了ROLAP[关系型]和MOLAP[多维]的HOLAP[混合型]分析;以ODS[Operational Data Store]为主要存储模式等)。政务大数据的离线计算可以采用MapReduce分布式计算模型(如Spark集群计算环境)和Apache Hive基于Hadoop的数据仓库工具;实时计算可以采用Apache Storm+Redis来实现;日志处理方面可同时使用Flume(日志收集管道)和Kafka(分布式消息队列),日志流向可以从log到Kafka,再从kafka到Strom上,再由Flume去读取日志消息。

政务大数据的服务层是基于计算层的支撑来实现的,按照计算层的政务协同、政务治理、政务服务和政务决策四类政务大数据群组,依次衍生出“协同流程、协同成效”,“治理体系、治理收益”,“服务提供、服务优化”和“政务研判、政务预测”等八大政务业务主题域。

其中,协同流程重点是提供政务活动的业务流程、过程数据支持,协同成效是对政务活动的价值评估、衡量,两者共同构成政务大数据在协同层面提供的数据基础服务、增值服务和价值创新;治理体系是政务监管评价、综合治理在政务数据层面上进行具体保障的系统性规划以及工具集、作业集,治理收益是治理效果的具体量化、数据展现;服务提供服务优化也是相辅相成的,前者是基础、后者是用于政务服务的自我改进、提升;政务研判是对政务活动的研究、分析和判定,核心目标是政务预测,即服务于对政务活动的未来预测、更好支撑未来的政务活动。从技术落地上来讲,政务大数据的服务层是需要可视化技术、机器智能技术进行支撑的,前者用于展现展示和基础互动,后者用于基于AI技术的虚拟“专家”智库/团队。其中,可视化技术未来必然是要和VR(Virtual Reality)、AR(Augmented Reality)、MR(Mixed Reality)、HR(Holographic Reality)、ER(Expander Reality)等XR技术相融合,来提高人与数据的互动。

关于政务大数据在服务层的8大业务主题域(政务大数据的本质就是政务,所以也是政务的8大业务主题域),计划在漫谈政务大数据系统文章完稿后,再分别做专题讨论,所以本文就不再进一步深入阐述了。

简言之,政务大数据的物理模型是服务于其概念模型,依据其逻辑模型进行政务大数据的实际实施、落地的。政务大数据的范围非常广泛,本文仅对整体脉络、通用业务、常用技术进行了说明。鉴于作者本人的学识、经验所限,相关内容难免有偏颇甚至错误之处,非常欢迎感兴趣的同仁一起研讨。同时,也会持续在该领域进行研究,并将心得、体会及时与大家分享。

原文发布于微信公众号 - 大数据和云计算技术(jiezhu2007)

原文发表时间:2018-03-02

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏布尔

游标清除重复数据

有时候导数据会把数据导重,需要根据某些信息清除掉重复数据,同学做信息机业务的,不小心把用户信息导重复了,造成不能发短信。我帮他写了个游标来清理重复数据。memb...

17610
来自专栏杨建荣的学习笔记

一条sql语句的建议调优分析(r5笔记第73天)

前几天开发的同事问我一个sql的问题,目前在测试环境中发现这条sql语句执行时间很长,希望我们能够给一些建议,能够尽快做一些改进。 sql语句类似下面的形式。 ...

2787
来自专栏互联网开发者交流社区

SQL触发器实例(上)

1414
来自专栏杨建荣的学习笔记

merge语句导致的CPU使用率过高的优化(二) (r7笔记第9天)

之前分享过一篇关于merge语句导致的CPU使用率过高优化的案例。http://blog.itpub.net/23718752/viewspace-181947...

2874
来自专栏杨建荣的学习笔记

生产环境sql语句调优实战第三篇(r2笔记38天)

生产环境有一条sql语句执行比较频繁,占用了大量的cpu资源。原本执行需要花费11秒。在一次排查中引起了我的注意,决定看看cpu消耗到底在哪儿? sql语句是比...

2644
来自专栏Java架构师历程

Mysql查询事例1

id  INT(10)  NOT NULL  UNIQUE  PRIMARY KEY  ,

782
来自专栏james大数据架构

你真的会玩SQL吗?简单的数据修改

你真的会玩SQL吗?系列目录 你真的会玩SQL吗?之逻辑查询处理阶段 你真的会玩SQL吗?和平大使 内连接、外连接 你真的会玩SQL吗?三范式、数据完整性 你真...

1887
来自专栏杨建荣的学习笔记

关于索引扫描的极速调优实战(第二篇)(r3笔记第82天)

在上一篇http://blog.itpub.net/23718752/viewspace-1364914/ 中我们大体介绍了下问题的情况,已经初步根据awr能...

3337
来自专栏Java帮帮-微信公众号-技术文章全总结

【数据库】MySQL经典面试题(练习)

【数据库】MySQL经典面试题(练习) 一、删除除了学号字段以外,其它字段都相同的冗余记录,只保留一条!(也就是要删除凤姐和田七中一条重复数据只留一条) ?...

4416
来自专栏数据和云

高手过招:用SQL解决环环相扣的刑侦推理问题(苏旭辉版本)

本文是继 杨长老 刑侦高考:如何用SQL解决环环相扣的刑侦推理问题 之后,苏旭辉的一个版本,希望大家能够在高手的过招中,看到喜爱、坚持、执着与技艺。

912

扫码关注云+社区