【火爆】国务院副总理汪洋:谈大数据感悟 !

国务院副总理汪洋:谈大数据感悟

休息这几天,我看了两本书,其中有一本是广西师范大学出版社出版的,一个美籍的人涂子沛写的《大数据》,看以后非常有启发。我推荐你们全厅干部都看一下这本书,研究一下大数据时代。他这书里边讲,数据是对信息数字进行解释,赋予意义。

进入信息时代后,人们趋向把所有存储在计算机上的信息,无论是数字还是音乐、视频,都统称为数据。2010年,美国总统科学技术委员会给总统和国会的报告写了这么几句话:数据正在呈指数级增长,联邦政府的每个机构和部门,都需要制定一个应对“大数据”的战略。现在大数据战略被认为是世界下一个创新、竞争和生产力提高的前沿,是争夺全世界的下一个前沿。你看,重要不重要。

书里面分析了政府数据有哪些来源和收集方式。他说了有三种来源,当然有不同的收集方式。第一种来源,业务数据。包括你们要做的,就是业务数据。来源是下级部门和社会组织,是以基层上报、被动接受为主。第二种数据是民意数据,是单个公民或组织需要投入人力,财力去主动收集,这样的数据收集也是将来财政要创造环境的,要支付的。第三类数据是环境数据。这个环境不仅仅是我们说的大气这些东西,他包括自然环境、动植物以及物体,以传感器自动釆集为主。物体包括汽车,包括运输物、动植物。

所以,如何收集、保存、维护、管理、分析、共享正在成指数级增长的数据,是我们必须面对的挑战。刚才我问了你们国库处,动态监控数据能有多少字节,能不能有多少G,你们说达不到,还是K级的。大数据是什么概念呢,就是至少是太字节的,从字节来讲是2的40次方字节,是相当大的数量。

大数据时代来了,我们要搞这些数据,对我们政府有什么意义呢。将来引导我们政府前进的是基于实证的事实,不是意识形态,也不是利益集团在政府决策过程中施加的影响。我们基于这些数据说话,将使政府更有效率、更加开放、更加透明。

这个书里举了很多例子,我看了之后非常有启发。比如讲美国的交通史。1966年,美国有9400万辆汽车时,交通事故死了5万人,这是他的最高峰;但是到了2009年,他是2亿4000万辆汽车,但是只死了3万人。汽车大幅度增加,死亡人数却大幅度减少。我不知道我们现在多少辆车,反正一年死十几万人是有的。为什么下降了,就是他们通过对数据的分析。分析以后发现,一年12个月,5、6、7、8月事故率是最高的;每一周,礼拜六、礼拜天事故率最高;一天里边,下午6点到晚上9点事故率最高;什么天气是事故率最高的,当然跟你们想的都不一样,不是下雨天、雨雪天,正常天气事故率是最高的。然后什么年龄段事故率最高,就是24岁—35岁,44岁—55岁,这两个年龄段最高。这个分析过以后,然后有针对性的措施。当然有些数据,他分析的更具体。为什么有的州高,有的州低,发现事故率高的州高速公路弯比较大,事故都是右侧的事故,就是因为弯比较大。有的事故率低,就是发现这个地方警察经常查系安全带,所以事故率低,那个事故率高的地区是没查安全带所以一系列数据收集分析,改进以后结果事故率就下降了。车子从不到1个亿,增加到2亿4600万,但是死亡率下降。这个非常有用啊。

另外,美国人现在开始在数据上打假,美国人的福利比较好,所以把所有的数据都输进去,然后通过计算机设计软件,一旦发现,馬上就去查福利滥用的情况。社会治安也是利用数据去分析,包括911之后的情况。现在美国已在有专门的机构,来负责收集、研究、使用数据,商业也好,政府也好,来研究这个数据的发展。

比如沃尔玛,沃尔玛通过他的销售数据,分析过以后发现,每到礼拜六、礼拜天,有两样东西是成比例的增长,啤酒和尿布。关于这个,你知道为什么呢,后来就发现,礼拜六、礼拜天常常就是女人在家做事,男人到购物店买东西,买东西就买尿布,买尿布的时候男人就想,挺辛苦的买点啤酒犒劳自已。所以啤酒和尿布就一块增加了。你很多是想不到的。数据你注意使用它。

马云最近来找我聊了一次。他当时就跟我说,你2008、2009年到杭州去,让我到广州来卖货,我跟你说说这几年卖广货的效果。2008年一年,他在淘宝网卖了177亿广货,今年可以卖到1700亿,就是四年是十倍。他就讲,他现在他觉得数据是他的竞争力。他当然讲了个例子。他说你想不到,全中国比基尼卖的最好的是哪几个省。然后就说,你绝对想不到。一般人认为,肯定卖的好的是广东,海南岛,他说卖的最好的从淘宝上看,是新疆和内蒙。他说,估计每一个男人,都要给他的夫人、情人和对象有一个美好的憧憬,有一天我带你去下海。当然这是他的一种解释,但是能反映什么呢,就是这些数据和你想象的不是一个概念。如果商家掌握了这个东西,其实你比基尼广告的重点不要放在广东做,你放到新疆、内蒙去做啊,这效果可能就不大一样了。

对于政府工作来讲,同样如此。我看这个书里写,流感对于美国人是一个非常大的事情。美国人对于的流行病学的各种调查就是掌握不了流感的规律。后来想到从2万多家药店的销售记录中间,把这个数据拿来、分析,分析后发现,一般在全国流行性感冒的前两周,药店的感冒药增加的比较快。也就是增加的比较快两周以后,全国的流行性感冒来了,政府就需要增加对流行性感冒预防的措施。他们就分析为什么呢,因为大部分人开始有感冒症状的时候,没有意识是个问题,就到药店买点药吃。一旦增加了,药店的药增加了,估计下两个星期后,医院的人就要增加了,这个时候预防措施就要开始了。

所以这个数据是非常重要的问题,我们将正式进入一个数据为王的时代。李嘉诚也是有这样的看法,他前不久给我写了一封信,说人工智能和大数据技术的普及化,势必令不同行业和教育系统的范式转变。他说这个范式我估计是香港说法,就是模式。不同行业都是这样的,你比如讲他这个书里讲的,政府掌握数据往往关系到行业标准,比如单位牛奶中的蛋白质含量,菌落群数应该是多少,饮用水里面能混杂多少含量的微量元素,新鲜蔬菜能带多少指标的杀虫剂残留,每个指标的变化,即使只有零点几,都会影响到一个行业的竞争,改变一个产业。

这个数据非常重要,而这个数据最后实际上都涉及到利益,所以你政府掌握不掌握这些数据,在制定政策的时候,特别是个各个行业、企业利益博弈的时候,你可能就会陷入被动。你们看这本书里也有这样的例子。在美国,存在一个庞大的说客集团。华盛顿最大的产业,第一是旅游,第二就是说客。他们代表企业和行业的利益,游说政府的政策制定,这里面都涉及到利益。政府不掌握这些数据,就有可能被掌握这些数据的行业集团所影响操控,政府的决策就不可能科学,特别像财政,更是如此。

而起我想说,政府的数据是要公开的,当然公开也是一种博弈。刚才我已经讲过,我们掌握的一些数据,比如“三公”经费信息,公开之后,它的好处是什么呢,实际上是创造一个社会帮助我们改进工作的机会。最近我看了些书,有个一观点,下一步的改革,实际上就是政府要调动民间的力量对利益格局进行调整。因为你单靠政府已经搞不动了,那怎么办呢,就是要让社会、民间参与其中。其实我们公开“三公”经费信息,就是调动社会力量促进我们改进工作。

这个东西你们可以去看那本书,书中就有这样的例子。比如说奥巴马上任后就搞了个信息公开化的承诺,故事你们可以在书中找,过程很有意思。最后在120天内搞了个规划,吵得一塌糊涂,跟我们搞放权一样,大家在公开的场合都赞成,一到具体要公开本部门的信息的时候都说,我这个部门的数据不能公开。但是美国的联邦政府的首席信息官维伟克·昆德拉,一个年轻的印度裔移民,他很有办法,他先从一些没有争议的数据开始,并快刀斩乱麻,推出了一个技术平台并不断完善。一旦数据公开走上轨道了,群众就会监督,向更多部门和领域提出数据公开的要求。美国有个信息自由法,只要人家向部门提出信息公开的要求,相关部门就要回复,部门不愿意公开要说明理由,人家接受就可以不公开,人家不接受可以去起诉部门。所以现在政府公布的信息越来越多。

公开的好处是什么呢?以美国的民航业为例,美国民航的正点率比我要高很多了,它是如何做到的呢?现在美国交通部开放了全美航班起飞、到达、延误的数据,那当然也是海量的。公布之后,有人就利用这些数据开发了一个航班延误时间的分析系统,并向全社会免费开放。通过这个可视化的软件,任何人都清楚的看到:晚点最少是哪个航空公司,晚点最多的是哪个航空公司,一般晚点多少时间;在各个航线上,哪个晚点最多,哪个晚点最少,哪个正点率最高,它把这些排列出来,一目了然。这个是民间开发的软件,不是政府开发的,政府只是把基础数据公开了。这样做的结果呢,就是美国民航的误点率逐步减少,满意率不断提高,而且政府也没有承担软件开发的费用,只是把这个信息公开了,却达到了三赢的目的。这里面能看出个规律,部门公开数据,公众提出意见,部门根据意见再改进工作,当然了,这里面也有很多博弈。

这本书中还写到,万维网之父,蒂姆·萧伯纳·李在2009年的一次演讲中说过一句话,“原始数据,现在就要!”我看到这里,很受启发,我们中国人,包括在各个领域,对数据的概念和作用的重视,还是很不够,从某种意义上来说是我们做这个工作的重要契机。就像改革开放初期,我们的农民对土地的重要性认识不足一样,我们那时有意识地把土地拿在手里。欧广源当县委书记的时候,搞了几千亩地,到现在都觉得当时很有远见,那时候征地费用没那么高,大家也没觉得地会像现在这么值钱,结果你意识到了,你把这些地拿到手了,就成为后来竞争的重要资源。现在我们全社会也没有意识到这些数据的重要,你们的工作对象也没有意识到这一点,这个时候,是收集数据最好的时候。

作者在书的最后,提出希望我们国家重视数据。他写到中国人数据意识的淡薄由来已久,甚至可以称之为国民性的一部分。胡适曾经写过,我们中国人是“差不多”先生,什么事情都“差不多”就行,不注意数据的收集、整理和使用。他举了个例子,麦肯锡公司以2010年度各国新增的存储器为基准,对全世界的大数据的分布做了一个研究和统计,中国2010年度新增的数据量为250拍(PB,1PB=1204TB=250字节),不及日本的400拍、欧洲的2000拍,和美国的3500拍相比,更是连十分之一都不到。但是我们中国却是全世界第一手机大国,第一互联网用户大国,实际上我们只是把这些数据收集起来,就能发现很多问题。我说过,上次分析经济形势的时候,让移动和联通把相关数据拿来,就可以看出许多问题。

所以我就想,如果我们能像三十年前政府可以轻易的拥有土地一样,现在抓紧时间搜集数据、使用数据,这是竞争的一个新的制高点。因为再下一步,考虑到隐私权的问题,将来再收集个人数据就没有那么容易了,另外单位里面的数据也可能会存在越来越多的保护举措。所以我觉得,现在财政的数据收集、分析、使用以及公布会极大的促进收入、改进支出、提高财政工作水平。

所以我希望大家能认真读一读这本书,带着问题读、带着想法读,怎么样促进财政数据的收集,怎么样加强财政数据的分析,怎么样挖掘数据背后有利于我们增加收入、改进支出的有用因素,然后逐步推进财政数据的公布,调动全社会监督的力量,使我们的工作水平不断提高。将来这个社会是个开放的社会,有兴趣的人他会提出意见。

我相信,你们拿这本书去看一看,如果能带着问题去想,带着问题去做,会比我今天讲的所有内容都会对财政工作有更大的益处,而且不是一天,将会发挥长期的作用。

来自: 美林大数据

原文发布于微信公众号 - CDA数据分析师(cdacdacda)

原文发表时间:2015-01-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯位置服务

《京沪公园使用大数据报告》解读城市公园新机遇

在快节奏的大时代,一线城市的人们总是步履匆匆,高速的经济发展,催生了高楼林立的钢筋水泥城市。大多数人在繁忙的节奏中似乎忽略了城市中的风景——“公园”,城市公园不...

3772
来自专栏腾讯高校合作

【园丁计划】浅谈高校科研的比较优势

1322
来自专栏腾讯大讲堂的专栏

“一起唱”创始人尹桑:90后放大了创业精神,不怕输就不会输

7月19日,“腾讯产品家沙龙:90后企业家专场”在北京举行,本文是一起唱创始人尹桑的分享内容。 ? 尹桑出生于1992年,“一起唱”创始人。KTV百亿市场十年未...

2767
来自专栏罗超频道

《不一样的美男子》总导演专访:对百度大数据又爱又恨

导语:对于大数据的加入,湖南卫视自制剧《不一样的美男子》总导演丁仰国可是又爱又恨。爱的是,大数据不仅是一种技术还可以卖萌,让这部《不一样的美男子》成为中国第一部...

3215
来自专栏灯塔大数据

深度|保护个人隐私要修补好大数据监管的漏洞

如果没有徐玉玉和宋振宁之死,时下这起全民关注的电话诈骗案不过是每天都会在全国各个角落上演的一个再普通不过的案例,不会引来此等规模的关注,更不会让许多从事数据研...

30412
来自专栏TEG云端专业号的专栏

【人物:lakehu】不信书,信运气

lakehu(胡珀),网名lake2,江湖人称二胡。2007年本科毕业加入公司,一直在安全平台部从事黑客攻防对抗相关的工作,先后负责过漏洞扫描系统、恶意网址检...

3457
来自专栏科技向令说

信商和博弈论能解决消费升级与反脆弱吗?

在日本海底有一个国家叫小日本,该国居民都是小矮人,故又称小人国。一天,海底世界的霸主彩虹国爆发股市大崩盘并在海底世界引发金融核弹冲击波,将小日本的金融体系彻底冲...

842
来自专栏DT数据侠

我们精选出十篇数据干货,助你圆满收官2017!

回顾2017,始终紧跟历史进程的DT君,带大家用数据视角探索世界:从人工智能到共享经济,从影视热点到古典文学,我们探索过新零售的“门店秘密”,也挖掘过城市空间的...

740
来自专栏喔家ArchiSelf

昔我往矣 奋斗迎之

能够为教育做一点事情,哪怕是一丁点儿,也是每个人的荣幸!今天早上,很高兴在北京师大附中的学期结业式上,在附中百年礼堂分享了个人对幸福和奋斗的一点看法,路上的心情...

682
来自专栏数据的力量

深度思考比勤奋工作更重要

做公司早期创始人是非常困难的。因为你面对员工的时候,很难向他去解释,公司可能只有三个月发工资的钱,甚至三个月之后发工资的钱从哪里来,我都不知道。你无法和他们去分...

752

扫码关注云+社区