学习
实践
活动
专区
工具
TVP
写文章
专栏首页PPV课数据科学社区大数据史记2013:盘点中国2013行业数据量(上)

大数据史记2013:盘点中国2013行业数据量(上)

说人类步入了信息时代,有个事情是非常重要的,就是物理世界的信息化,包括信息基础设施建设和数字化,紧接着就是如何将数字化的东西(数据)进行储存、传输、交换以及使用,这一脉络伴随着移动互联网,云计算、大数据以及各种各样智能终端的出现,显得也越来越清晰。很多人都已认可,我们可能来到一个工业革命之后,一个比我们想象地更加重要的变革时代,我们把它命名为产业互联网的时代。毕竟这一切都是互联网出现之后才发生的,无论是云,通过网络随需调用的计算资源;大数据,关联的可分析在线数据;还是各种智能终端,都要依托互联网。同时这些工具又帮助互联网从消费互联网进化到改变各个行业的生产性互联网,其中,数据成为产业互联网重要的生产要素。当然,数据成为生产要素还有个前提,就是获取数据,并有效的梳理与标签。 2013 年中国产生的数据总量超过0.8ZB(相当于8亿TB),2 倍于2012 年,相当于2009 年全球的数据总量。预计到2020 年,中国产生的数据总量将是2013年的10倍,超过8.5ZB。(来源,ZDNET《数据中心2013:硬件重构与软件定义》年度技术报告) 我们通过服务器和数据中心数量,以及各行业数据梳理,大致判断国内目前一年产生、存储的数据总量以及大致分布,在这一回中,我们尝试将所收集的资料汇总起来,进一步分析下各个行业、领域的数据总量和分布情况,以供参照。 1、BAT代表的互联网公司 (百度)现在的数据总量接近一千个PB左右,网页的数量大概是几千亿的网页,从大量的网页里面我们拿出几百亿来建索引,对于大量的网页,我们每年更新几十亿左右,每天会享受用户的查询也会在几十亿左右,我们查询的也是几百PB。(百度云计算首席架构师林仕鼎2013) 根据公开的信息,作为全球最大的中文搜索引擎,百度每天响应来自138个国家和地区的数十亿次请求,百度每日新增数据10TB,要处理超过100PB的数据,从浩如烟海的信息中精确抓取约10亿网页,同时索引库还拥有千亿级在线索引能力,以帮助用户完成搜索过程。面对海量的大数据,百度正在通过自建数据中心,开发了自己的大数据存储系统,并使用了多项新技术。计划投资47.08亿元的百度云计算(阳泉)中心已于2012年8月奠基,该项目预计2015年完工。建成后的百度云计算(阳泉)中心数据存储量将超过4000PB,可存储的信息量相当于20多万个中国国家图书馆的藏书总量。 百度的数据量大大家可能不会怀疑,甚至说中国拥有最大数据量的公司,大家可能也不会怀疑。因为我们是提供搜索服务,我们要把全中国的中文网页全部搜索起来,放到我们中心。全部的网页多大呢?目前估计是三千亿左右,三千亿个中文网页要把它全部抓过来,放到我们的数据中心。这个数据大概是10-50个PB,这个范围很大,因为这个情况是每隔一小时时间就会发生很大变化。再一个想不到的是日志,百度的系统里面每天有很多大量的日志,这些日志是作为我们分析处理用户行为习惯,包括数据恢复和灾难备份很重要的基础,这个数据量是最大的,目前能达到100个PB以上。数据仓库,数据仓库是经过清洗以后的日志信息,这个是结构化的。再一个大家知道,百度上有百度推广,俗话叫广告。和传统广告一样,除了有客户的信息之外,还有广告本身,这部分数据比较小,1TB,但是这部分数据对它处理的要求非常高,首先是要高度的一致性。最后一个是UGC,用户产生的内容,大家都知道百度有贴吧,有百度知道,百度文库,这些内容是广大互联网网民自己产生,自己上传,大家一起分享的数据,这部分数据目前达到1PB,而且这里的数据大量是用户上传的视频、图片等等多媒体的数据。(百度技术委员会理事长陈尚义2012) 2013年有篇报道指出阿里巴巴掌握的总体数据量为30P。行业内部人士预计阿里集团大概有30万台左右服务器,目前保存的数据量应该在近百PB(对新浪微博的投资,对高德等的收购等行为,会进一步提高阿里巴巴可接触的数据量)。2012年7月10日,阿里集团就宣布设立首席数据官岗位(CDO),负责推进“数据分享平台”战略。阿里巴巴也一直在尝试对数据进行加工。从早期的“淘宝指数”,到为店铺经营提供运营管理数据分析的“数据魔方”,到将“云”理念与大数据结合的“聚石塔”,再到以数据分析为基石的“阿里金融”,阿里在大数据开发方面一直走在业界前沿。 从淘宝创立之时,阿里巴巴就开始搜集平台上的数据,直至支付宝、聚划算、一淘等平台,随着业务的爆发式增长,阿里诸平台上的数据成倍增加,汇集成海。这些数据包括交易数据、用户浏览和点击网页数据、购物数据等等。阿里集团首席战略官曾鸣预测,“阿里本质上,未来会是一家数据运营公司。”前者,是如何将大数据用好,而后者则意味着,如何让大数据更好用。 在2013年大数据大会上,腾讯公司数据平台助理总经理蒋杰表示,在国内互联网体系中,腾讯拥有的数据覆盖多个领域,总存储数据量经压缩处理以后在100PB左右。 腾讯QQ目前拥有8亿用户,4亿移动用户,在数据仓库存储的数据量单机群数量已达到4400台,总存储数据量经压缩处理以后在100PB左右,并且这一数据还在以日新增200TB到300TB,月增加10%的数据量不断增长,现在正在为1000个PB做准备。亚洲最大的数据承载中心,腾讯天津研发与数据存储中心正在滨海新区紧张地建设中,腾讯天津中心项目总建筑面积9.33万平方米,预计服务器托管能力超过10万台。 其他像360、一些地图、社交、影视娱乐类互联网公司,也拥有PB量级数据储备。如果按某媒体所说的BAT中阿里巴巴拥有90%以上的电商数据,百度以70%以上的搜索市场份额坐拥庞大的搜索数据,腾讯拥有大量社交、游戏等领域积累的文本、音频、视频和关系类数据,这三大巨头拥有的数据量肯定是在EB级别以上,全部互联网公司拥有的数据量应该超过1.5EB,达到接近2EB的体量。 2、电信、金融、保险、电力、石化系统。 2012年12月13日,在由云基地主办的“中关村大数据日”活动上,中国联通研究院副院长黄文良介绍,“今年,中国联通成功将大数据和hadoop技术引入到”移动通信用户上网记录集中查询与分析支撑系统”。截止到目前,我们已经部署了4.5PB的存储空间。除了这些数据,运营商还具有用户通话、信息、地理位置等信息,目前主要运营商拥有的数据数量应该都在10PB以上,总体年度用户数据增长约数十个PB。 中国银联公开数据显示,全国仅“银联”银行卡发行量目前接近40亿张,每天有近600亿交易通过银联的银行卡交易,尽管单张卡片数据量不大,但汇总起来,这依旧是一个非常庞大的数据量。如果再加上开户信息数据,银行网点和在线交易的各种数据,以及金融系统自身运营的数据,目前国内银行和金融系统每年产生的数据也能达到数十PB,保险系统生成的数据量也会接近PB级别。 今天,国家电网建成世界最大电能计量自动化系统。截至2013年年底,累计安装智能电能表1.82亿只,实现采集1.91亿户,采集覆盖率56%,自动抄表核算率超过97%。智能电网可以产生巨大的数据量。比如国网信通在北京五个小区, 353个采集点,采集1.2万个参数,包括频率、电压、电流等, 15分钟采集一次,一天就能产生34GB。仅国家电网,全国能够采集获得的数据总量也是上10个PB级别的,能够保存下来的数据量也能达到近10PB,同样,据内部资料分析,石油化工、智能水表等领域每年产生和保存下来的数据量也达到数十PB级别。 精彩内容,下期继续......

文章分享自微信公众号:
PPV课数据科学社区

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

原始发表时间:2014-04-30
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 大数据史记2013:盘点中国2013行业数据量(下)

    五一小长假结束了,我们继续来说说大数据史记。上次讲到了BAT代表的互联网公司,以及电信、金融、保险、电力、石化系统,接下来分析下其他行业。 1、公共安全、医疗...

    小莹莹
  • 盘点中国2013行业数据量

    大数据文摘
  • 时空位置与大数据

    在这个人人都谈大数据,处处皆用大数据的时代,我们身边的这些大数据究竟如何产生,又有多大的体量了呢?根据一份2013年的报告显示,2013 年中国产生的数据总量超...

    宋天伦
  • 撼动企业应用架构的十大技术趋势

    这是一个注定要被拍砖的问题,但是这样拍着改着也可能就真明确了。所以无论如何,还是先抛出块砖头吧。 我们都在说大数据时代来临,信息和数据大爆炸。从2013年初开始...

    小莹莹
  • 盘点“BAT+3M”五大互联网巨头2014投资布局

    虽然过年,我们也会为您持续分享,2015的大数据文摘内容将更加丰富、有料、有趣,值得期待!同时,我们也希望有能力、愿分享的你加入文摘,和我们一起创造价值。

    大数据文摘
  • 图解互联网

    数据盘点互联网的2014和2015 盘点1:那些“土豪”收购 Facebook 220亿美元收购Whatsapp Facebook 20亿美元收购...

    腾讯研究院
  • 投稿 | 不温不火的互联网教育已经进入收成期? | FellowData 互联网教育领域数据报告(上)

    <数据猿导读> 根据数据显示,互联网教育领域的创业热度自 2015 年下半年起严重下滑,且创业数量和融资额度上呈一个基本同样增减态势,若没有新模式的出现,预期教...

    数据猿
  • 企业云存储大幅降价乃至免费,背后暗藏的是数据的野心

    随着移动互联网的迅速发展,智能终端、可穿戴设备、智能家居、物联网以及基因测序正在快速普及。企业和用户每天接触的数据吞吐量呈现出指数级的增长趋势,我国社会正在步入...

    静一
  • 【资讯】专访SAS高管:Value是大数据的精髓

    image.png ▲Sas公司大数据研究与发展全球副总裁Paul Kent 专注数据分析近40年的SAS公司,在大数据时代更加如鱼得水。20...

    小莹莹
  • 数据猿·金猿榜丨2017中国数据可视化领域最具潜力创业公司

    “2017中国数据可视化领域最具潜力创业公司”盘点源于数据猿推出的“金猿榜”系列内容,旨在通过媒体的方式与原则,发掘大数据领域最具潜力的创新型企业 编辑 | a...

    数据猿
  • 中国互联网的“老二”名单,及其生存逻辑

    备注:本文今日发布于虎嗅。由于腾讯战略投资搜狗这一大事件,许多领域格局被改写,今天的老二明天就不再是老二。互联网有意思的一点就是,每天都有意想不到。 还...

    罗超频道
  • 钱都去了哪些城市?——资本也用脚投票

    关于第一个问题,实际上是城市间人口迁徙问题,有关这个问题数据团已经写过很多篇文章了(例如:一线城市严控人口,我们还能去哪?)。今天让我们换个角度,从钱的视角再来...

    IT阅读排行榜
  • 中国互联网公司最新最全阵亡名单,涉及16个领域千余企业!附死因和反思!

    下面为大家奉上中国史上最全O2O创业企业大盘点,共涉及16个领域、千余家企业,而这16个领域中目前已经死亡的有哪些,“死者”众多,一片哀鸿,请自备纸巾。

    IT阅读排行榜
  • 数说互联网金融

    数据盘点互联网金融的2014 事件1:全球第1大P2P平台Lending Club上市 12月12日,世界最大P2P平台Lending Club在纽交...

    腾讯研究院
  • 【案例】农业银行大数据平台项目——海量数据复杂运算处理

    数据猿导读 随着数据量的不断增大、接入的系统越来越多,系统加工效率逐步降低,满足内部数据分析和监管机构的监管数据不断增加的需求,农业银行在2013年开始建设完全...

    数据猿
  • 2013年中国购买工业机器人量首次超过日本

    一度被称为人工劳动“世界工厂”的中国,如今已成为世界上购买工业机器人最多的国家,这是因为工资成本上涨以及来自新兴经济体的竞争加剧,迫使中国制造企业更多地求助于技...

    机器人网
  • 海云数据创始人兼CEO冯一村:AI产业化的春天将首先爆发于能够理解用户诉求的细分领域

    数据猿导读 随着各行业数据不断积累,人们已经意识到在海量数据中有超过80%的数据静待处理,超过90%的数据价值并未被挖掘。海云数据创始人兼CEO冯一村告诉数据猿...

    数据猿
  • 数据解读 | 中国世界500强数量首超美国,但别高兴得太早

    新一年的《财富》世界500强榜单刚刚发布,加上港澳台,中国上榜企业数量史无前例超过美国,给中美关系的畅销书作家们又提供了一个不错的梗。

    CDA数据分析师
  • 大数据揭秘未来全球最容易暴富的十大行业

    一个行业不会长盛不衰,也不会一蹶不振,市场前景在哪里,需要独到的眼光和敏锐的判断。那么,未来全球哪些行业最具有暴富潜力? 1、金融投资 ? 全球金融科技类...

    灯塔大数据

扫码关注腾讯云开发者

领取腾讯云代金券