《数据科学与工程导论》05数据的全生命周期管理

1970年,IBM工程师Codd发表了著名的论文“A Relational Modelof Data for Large Shared Data Banks”,开启了数据管理技术的新纪元——关系数据库时代。

30年后的新世纪,Google陆续发表了关于GFS、MapReduce和BigTable三驾马车论文,开启了大数据的分布式处理时代。

今天,数据技术越来越成为驱动各行各业进行创新与发展的原动力,大家都在关心与谈论着数据的全生命周期,希望在各个阶段都能将“数据”这个信息时代的新能源充分的发掘与利用。

去年所发布的大数据版图(

从2017大数据版图看大数据的技术架构

)已经将这点暴露得一览无遗,密密麻麻的各种数据处理技术将我们包围起来,各式各样的数据处理系统让人们应接不暇:批量计算的MapReduce和Spark、流式计算的Storm和Flink、交互式计算的SQL on Hadoop、图计算的Pregel和Trinity等等。

但我们还是可以通过这些表面技术,从系统的角度看到一幅数据的全生命管理过程:

数据采集

数据存储

数据管理

数据计算

数据分析

数据展示

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181017A2BHES00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券