专栏首页PPV课数据科学社区撼动企业应用架构的十大技术趋势

撼动企业应用架构的十大技术趋势

这是一个注定要被拍砖的问题,但是这样拍着改着也可能就真明确了。所以无论如何,还是先抛出块砖头吧。

我们都在说大数据时代来临,信息和数据大爆炸。从2013年初开始,对于大数据爆发的焦虑感,紧迫感,不由自主地被卷入的甚至无力的感觉,驱动众多行业、企业和团体去关注和开始接触和了解大数据,自觉或不自觉的,主动或不得已地去融入这波洪流。但是,真的说到大数据,我们身边到底有多少数据量,它们都分布在哪些行业,哪些数据是目前可用的,哪些行业已经在使用数据,进入产业互联网和数据引导的变革了?

可能看到的版图依旧模糊。因此,我们怀抱很好的希望,以第一个吃螃蟹并期待来自行业的矫正和拍砖的态度,首先尝试对于国内各个领域,行业以及机构的数据拥有情况,使用情况以及未来路径做一个粗犷地调研、梳理和判断,对大数据时代我国各个领域数据资产的拥有和使用情况,也就是我们数据资产的家底做个盘点,也对各个行业、系统进军大数据,以及拥抱产业互联网的进度和未来做个简单判断。事实上,大数据之题无疑繁若星辰,然而只有在相对完整的视图下,繁星若尘,我们才可得以一窥天机。

闲话少叙,现在开始算账。

从我们手头掌握的数据来看,2013年度,中国存储市场出货容量超过1个EB,存储总量而IDC曾经发布的预测表明在未来的3-4年,中国存储总容量可能达到18个EB。从数据存储市场的需求来看,互联网、医疗健康、通信、公共安全以及军工等行业的需求是主要的,且上升态势明显。

鉴于存储和服务器的紧密相关,我们从已经获得的资料可以知道,目前全球运行的服务器总量超过5000万台,美国国内运行的服务器总体容量接近1000万台。从各种市场公开数据来看,2013年中国内地服务器销售总数接近为100万台。大体估算,截止到2013年底,中国内地整体在运行的服务器总数量在300万台以上。

从现有存储容量看,中国目前可存储数据容量大约在8EB-10EB左右,现有的可以保存下来的数据容量大约在5EB左右,且每两年左右会翻上一倍。这些被存储数据的大体分布为:媒体/互联网占据现有容量的1/3,政府部门/电信企业占据1/3,其他的金融、教育、制造、服务业各部分占据剩余1/3数据量。

公开数据显示,互联网搜索巨头百度2013年拥有数据量接近EB级别、阿里、腾讯声明自己存储的数据总量都达到了百PB以上。此外,电信、医疗、金融、公共安全、交通、气象等各个方面保存的数据量也都达到数十或者上百PB级别。

在目前被广泛引用的IDC和EMC联合发布的“2020年的数字宇宙”报告预测到2020年,全球数字宇宙将会膨胀到40000EB,均摊每个人身上是5200GB以上,这个量将会如何被有效存储和应用,我们眼下还很难想象。然而我们看到该报告指出,从现在起到2020年,全球数字宇宙的膨胀率大约为每两年翻一番。事实上,根据上述调查结论和服务器容量调查,我们也能做出个相对合理的推断:目前,全球产生的数据量中仅有1%左右的数据能够被保存下来,也就是说今天全球能够被保存下来的数据也就是在50EB左右,而其中被标记并用于分析的数据更是不到10%。

作为全球人口和计算设备保有量的大国,我国每年所能产生的数据量也极为庞大,有数据说2014年甚至可能达到ZB级别,但是真正被有效存储下来的数据仅仅是其中极微少部分,中国保存下来数据占全球数据的比例大约在10%左右,也就是上面说的5EB。这些数据中,目前已被标记并用于分析的数据仅达到500PB左右,也是接近10%的一个比例。

伴随着云计算迅速普及和各行业,各企业和部门对于数据资产保存和利用意识的增强,以及通过互联网、大数据对产业进行变革的意愿,未来2-3年一定会有越来越多的行业、大企业步入到PB、百PB、甚至EB级别数据俱乐部,未来3-3年中国的数据总量也将呈翻倍上升态势,我们预测2015年中国就可能突破10EB数据保有量,被标签和分析利用数据量也将上升到EB级别,这些数据增长中互联网、政务、医疗、教育、安全等行业和领域所做贡献最大,而相对传统的物流、生产制造、甚至农业等领域数据拥有量的增长将更加明显。

本文分享自微信公众号 - PPV课数据科学社区(ppvke123)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2014-04-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [数据结构与算法] 线性表总结

    线性表也是基本的数据结构之一,Python里面的list和tuple,就是线性表的一种实现。 首先什么是表呢,其实很简单,比如【元素1,元素2,。。。,元素n】...

    用户1622570
  • poj 1316 Self Numbers

    题意:找出10000以内所有的不能由n+n的各位数字和组成的数字 #include<stdio.h> #include<string.h> int main()...

    用户1624346
  • Linux 目录结构及文件基本操作

    win和类unix系统的文件目录的区别 一种不同是体现在目录与存储介质(磁盘,内存,DVD 等)的关系上,以往的 Windows 一直是以存储介质为主的,主要...

    98k
  • Python黑帽编程2.3 字符串、列表、元组、字典和集合

    本节要介绍的是Python里面常用的几种数据结构。通常情况下,声明一个变量只保存一个值是远远不够的,我们需要将一组或多组数据进行存储、查询、排序等操作,本节介绍...

    用户1631416
  • 哇,原来python字符串是这样的!

    python中的字符串一直是困扰小编的一大难题,相信大家伙也曾体验过被各种编码支配的恐惧吧。不过没关系,相信你读了这篇文章,一定会对python字符串豁然开朗!...

    石晓文
  • [数据结构与算法] 链接表总结

    上一次说到了顺序表,链接表和顺序表一样,也是线性表。那为什么有了线性表还要有链接表呢?总之就是当数据过大时,顺序表存在一些存储方面的限制,而链接表比顺序表要更有...

    用户1622570
  • CMU邢波教授:基于双向语言模型的生物医学命名实体识别,无标签数据提升NER效果

    【导读】生物医学文本挖掘领域近年来受到越来越多的关注,这得益于,科学文章,报告,医疗记录的电子化,使医疗数据更容易得到。这些生物医学数据包含许多生物和医学实体,...

    WZEARW
  • [算法与数据结构] 《算法导论》堆排序笔记

    堆排序的实现是靠叫做“堆”的数据结构来实现的。所以学习堆排序,首先要了解什么是堆 堆 堆是一个数组,每个结点表示数组中的一个元素,堆可以看做是一个近似的完全二叉...

    用户1622570
  • [数据结构与算法] 链表的其他类型

    单链表是最简单的链表,单链表的一种变形就是循环单链表,其中最后一个结点的next域不用None,而是指向表的第一个结点,这样就形成了一种循环结构,所以叫循环单链...

    用户1622570
  • uva Andy's First Dictionary

    题目很简单,数组开大就好,5000但加上重复就不够了10000都小,sort排序前闭合后开,对二维字符窜排序用结构体,所以只有一组的时候只是本身但是不会出现RE...

    用户1624346

扫码关注云+社区

领取腾讯云代金券