深度剖析“开放政府数据”

导读

开发一款全国人民都能使用的“找公厕”APP的核心障碍是什么?是开发者缺少关于公厕的数据。这就涉及到开放政府数据的问题。政府数据既能够推动经济增长乃至经济增长方式的转型,也影响着民生的方方面面。

今天的这篇文章中,郑磊副教授为我们解释了何为开放政府数据、为什么要开放政府数据,同时介绍了国外目前在开放政府数据方面的进展,也剖析了国内开放政府数据的探索和难点。

作者:郑磊

复旦大学数字与移动治理实验室主任

(实验室微信号:dmgfudan)

一、

什么是开放政府数据

过去十多年来政府投资进行了大量电子政务或者称为政府信息化的工作,也就是政府利用信息化的手段提高内部的办公效率效能、对外提供公共服务和对社会进行管理。十多年来政府的后台积累了大量的数据,而这些数据和公众的生产生活息息相关。有研究表明政府所掌握的数据使政府成为了一个国家最重要的信息保有者,有百分之七十到八十的核心数据存在于政府的后台,政府有必要将这些数据开放给公众,供社会利用,这就是开放政府数据的由来。

真正的开放政府数据要满足以下八个方面的条件:

1、这些数据是完整的:除非涉及国家安全、商业机密、个人隐私的数据,理论上要求所有的政府数据都要开放,开放是原则,不开放是例外。

2、这些数据是一手的:不是整合或者修改过的数据

3、这些数据是及时的:必须以最快的数据更新和发布数据,将过时的数据对外发布,会使数据的价值大打折扣

4、这些数据是可获得的:尽可能让公众能够获取使用,尽可能扩大用户的范围和利用的种类

5、这些数据是可机读的:不是简单在政府网站上开放pdf或者word格式的数据,而是要开放API接口让需要数据的企业用机读的方式下载和利用这些数据,使这些数据直接和企业和三方的应用打通。政府每次更新数据,企业和三方提供的应用就能即时更新。

6、这些数据是非歧视性的:政府要公平地将这些数据开放给全社会,使这些数据可以被所有人获取利用,而不是只给一小部分有特殊政府关系的机构和个人。

7、这些数据是非私人所有的:任何使用这些数据的机构和个人不能排除其他人使用这些数据的权利,这些数据不为任何私人所有,而是公共产品。

8、这些数据无需授权使用:除非涉及到国家安全、商业机密、个人隐私的数据,所有人无需获得政府授权便可在政府开设的平台上下载和利用这些数据。

二、

为什么要开放政府数据

政府数据本质上是国家机关在履行职责时所获取的数据,采集这些数据的经费来自于公共财政,因而这些数据是公共产品,归全社会所有,应取之于民,用之于民。由于政府采集和储存这些数据的经费就是来自于纳税人,所以公众获取这些数据不需再额外支付费用,政府如果对数据使用者再收费那就是二次收费了,这是不符合公共利益的。本质上来说,开放数据本身就是政府在大数据时代提供的一项公共服务。

现在都说大数据是未来的石油和金矿,可以通过对海量数据的交换、整合、分析创造新的知识和价值。前面提到国家百分之七八十的数据掌握在政府手中,如果这部分数据没有对公众开放,没有还之于民,大数据时代就无从谈起。因此,国外的一些学者就提出,大数据时代应建立在开放数据的基础上。

政府开放数据供社会进行增值开放和创新应用,可以激发大众创新,万众创新。现在都在强调创新,数据是互联网创新的重要基础,如果政府不开放这一部分数据,很多创新应用没有数据作为支持,只能是一些空壳创新。真正要推动大众创新万众创新,政府开放数据就是一个重要的推手。

开放政府数据之后能推动经济增长乃至整个经济增长方式的转型,从中国制造到中国创造,中国的年轻一代和互联网创新者有无限的创意。但如果不开放数据,这些创意难以变为现实。数据开发者能利用政府开放的数据,提供更好的服务,创造更多的价值,这个过程能够提高整个国家在大数据时代的竞争力。

2010年世界经合组织在关于开放政府数据的一个报告中提到政府通过开放数据推动经济增长,从而获得的税收收入远高于单卖数据所能获得收入。政府要学会算大帐,而不只是算部门利益的小账。开放数据激发经济活力从而得到税收提升,这是一个良性循环,更是一个能创造巨大公共价值的全局性的战略。

三、

开放政府数据与政府信息公开的异同

1、数据和信息不是一回事

数据是原始的一手的记录,不经过加工解读的,而信息是经过加工解读被赋予意义的数据。不少政府发布的数据,是被加工过的,如一些饼图柱状图等,这些只能算是信息而不是原始数据。所以,政府信息公开和数据开放的第一个差别就是开放的对象不同。政府信息公开只是开放到信息层,而政府数据开放是要开放到数据层。数据是更底层的资源,开放了数据以后才能对社会产生更大的价值。开放了原始的数据之后,社会对于这些数据的加工能力和创造力将是政府无法想象无法估量的。但是如果只公开信息层,这种已经加工过的信息再利用的价值就大打折扣了。一个比方就是,如果数据是大米,政府开放了大米,社会对大米的利用可以是做蛋炒饭、做粥、做菜饭、做白米饭,从而满足不同的需求,这才是激励底层创新的应有之义。但如果开放的是加工过的蛋炒饭,社会就没有办法再用这些蛋炒饭做成粽子做成粥了,那喜欢吃粽子和粥的人的需求就无法满足。饭已经不是原始的米了,数据中的一些原始的价值已经生米做成熟饭了,也就失去了很多潜在的利用价值。因此,公开信息是第一个层面的开放,在大数据时代应进一步深入到数据层的开放。

2、开放和公开的目的不同

政府信息公开主要是为了保障公众的知情权,让公众知道政府在做什么,监督政府的工作,并参与到政府的决策中。强调的是政府的透明度,是政治上行政上的责任。而开放政府数据则更多强调经济增长和社会发展上的责任,是要保障公众对政府数据的利用权。

以上两点是开放政府数据和公开政府信息的主要区别,所以信息公开是数据开放的基础,但数据开放在深度和广度上都有一个跃进。

四、

开放政府数据在国外的趋势和进展

美国的政府信息公开已经推行了五十多年,而奥巴马政府又对这个法令做了进一步的深化,这就是数据开放。在2009年奥巴马签署开放政府的行政命令后,这些年来开放政府数据已成为了世界性的一个趋势。美国联邦数据平台Data.gov上线后,在美洲、欧洲、亚洲等地,开放政府数据已成为了政府的一项重要工作。

这就是美国联邦政府的开放政府数据平台,做得非常简洁。美国联邦政府已经在此平台开放了来自多个领域的13万个数据集的数据。这些领域包括图中所列的农业、商业、气候、生态、教育、能源、金融、卫生、科研等十多个主题。这些主题下的数据都是美国联邦政府的各个部委所开放的。英国、加拿大、新西兰等国在2009年之后都建立起了政府数据开放平台,成为了国际信息化和大数据领域的一个重要趋势。

五、

开放政府数据在国内的探索和难点

在我国,2011年香港特区政府上线了data.gov.hk,称为香港政府资料一线通。上海在2012年6月推出了中国大陆第一个数据开放平台。之后,北京、武汉、无锡、佛山南海等城市也都上线了自己的数据平台,部分平台如下图所示。

据我们所知,青岛市、广东省也都在推进开放政府数据的工作,他们的数据开放平台也会在近期上线。当前开放政府数据过程中存在的问题和难点主要包括:

1、开放的数量很小,和国外的平台都不在一个数量级上,大都在500个数据集左右,这和我国社会对数据的需求相比也是远远不够的。

2、数据的质量和价值还不高。目前开放的政府数据大都是静态的数据,很少实时更新,很多数据还是通过其他途径也可以获得的数据,价值不高。而且这些数据大多数不是机器可读的,无法通过接口和社会开发的应用互联互通。

通过调研分析,有几个主要原因阻碍了我国开放政府数据的发展。

1、在法律层面上,还没有明确规定政府的信息公开需要深入到数据层,这就要求政府在法律法规上需要明确开放政府数据是政府的一项公共责任。

2、执行层面上,部门的公开意愿也是一个阻碍。数据目前被各个政府部门所持有的,虽然很多数据藏于政府后台没有被很好地开发利用,但基于部门利益的考量,很多政府部门不愿意开放政府数据。即使有些部门认识到了开放政府数据的价值,在开放政府数据的操作层面上也会遇到数据质量的问题。数据分散在各个部门,相互间可能存在冲突,如对于某一企业的数据不同部门的数据有截然不同的结果,这样的数据开放给社会可能会带来各种各样的问题,这也是政府在开放数据过程中遇到个一个非常现实的问题。

3、即使数据是准确的,数据质量也是没有问题的,社会在使用这些数据时还有个适用性的问题。政府当初采集这些数据的目的是服务于自己的日常工作,而不是供外部的某个企业或个体属于其他目的所用。因此,企业所需要的某一项数据可能和政府最终开放出来的数据不是一回事,即使名称看起来一样,还是需要在利用前了解更多关于数据采集的时间、方式等方面的元数据信息,然后再决定如何使用。

总之,开放政府数据对于政府是全新的问题,在专家学者层面也少有相关的专家。开放政府数据是一个结合了观念、管理、能力、资金、技术等多方面的问题。需要解决一些非常切实的问题才能提高政府开放数据的整体能力。现在学术界也在和政府合作,通过进行政府内部能力建设和学习国外经验等方式提升开放政府数据的整体水平。观念层面和能力层面都亟需跟上。

Q

&

A

Q1: 请问郑教授,国外对政府开放数据的加工利用的优秀案例有哪些?可以具体分享一些吗?

A:这方面例子非常多无法一一列举,我这里可以给大家一些寻找相关内容的方向。例如可以到data.com上可以找到相关数据的内容,还可以找到相关的应用,这些基于政府数据开放的应用由社会上的企业、机构开发,这些应用的存在使相关的数据开放网站不仅是个数据开放平台,也成为一个展示基于政府数据开放的应用的平台。这样公众不仅可以看到数据,并可以获取基于数据的应用。一方面为了鼓励公众,一些国内外政府推出数据创新比赛鼓励公众利用这些数据,例如纽约的一个叫做Big Apps的比赛就是基于纽约市开放数据的创新比赛。例如有一个参赛应用叫做Don’t eat here,利用纽约餐馆的食品安全事件的数据开发的这个应用可以提醒公众他所踏入的某家餐厅在食品安全方面发生过的问题。这样仅有政府掌握的食品安全数据就由此展现给了公众,服务于公众的日常生活,而政府自己无需花费时间金钱开发这些app,对于企业端,通过利用政府数据提高自己产品的吸引力和用户黏性也是他们希望看到的。另外推荐一本书《Open data now》,纽约大学的一个团队进行了开放数据五百强的排名,也鼓励了社会使用政府数据创造价值的积极性。排名前的企业也更能吸引更多用户下载其应用,这也产生一个良性循环。

Q2:假设当政府/社会数据开放和广泛运用,数量质量都不错,降低信息不对称时,对提高Total Factor Productivity 全要素生产率会不会有革命性的影响?甚至给中国带来第二个经济奇迹(比如GDP曾长>8%)改写历史?不知国内外有人研究吗?谢谢。

A:这就是开放政府数据一个最重要的意义。开放政府数据的价值绝不仅仅是对于政府本身的作用而是对整个社会的作用。前边说到大数据时代数据就是石油和金矿,基于数据我们可以得到对于社会更深的洞察力。最好的数据在政府手里,这些数据的开放激发的社会创新活力能够激发第一波第二波第三波的创新浪潮,也可能推动进一步革命性的经济和社会发展。

Q3:郑老师,关于政府大数据公开的步调,首先哪方面的数据会先向公众公开,整体是怎样的一个趋势?

A:基于社会需求开放数据,要求政府不是基于政府本身的角度,不是政府我想开放什么,我要开放什么的,我有什么就开放什么,这都是政府出发的导向。政府应该走向社会问用户需要什么,根据企业的需求和城市战略定位开放相符合的数据。

Q4:我有个朋友是做证照采集的,她的商业模式是和政府数据接口,以个人照片作为入口一站式办理各种事务,希望我能入股,我随后把部分资料私信给您,您帮看看,我的朋友这个生意是否有机会?

A:这方面会有个人隐私的顾虑,把公民的个人照片和商业企业对接涉及到隐私的问题。政府开放公众的照片给商业企业需要得到公众的同意授权。如刚才讲到的几个例外,国家安全、商业机密和个人隐私是不该开放的,如公民开酒店的数据,政府完全掌握这些信息,但这些数据必须严格保密。这个公民照片相关的应用如果涉及到个人隐私,会产生争议,公众不会答应,政府需要谨慎。

Q5:还想问郑老师一个问题:现在BAT采集的数据多数都属于隐私权范畴,刚刚房多多又和某房产交易平台换乘基于数据互置的合作。这样的数据互导式合作需不需经过消费者认同?我们国家目前针对数据保护有无具体的立法措施和执行案例?

A:数据开放和数据交易是两个概念。数据开放是政府用纳税人的钱采集的数据,是公共产品。这些数据排除掉国家安全、商业机密、个人隐私的部分,都应为公众所有。所谓数据交易,他所交易的是企业采集到的数据,是企业和机构采集所有的产品,是私有产品,是市场行为。这类市场行为需要有政府的约束和规制,尤其是涉及到个人隐私的数据,这方面国内还保护得非常不够。在市场数据交易的过程中,政府需要确保这类数据不涉及国家安全、商业机密、个人隐私,企业之间交易个人数据时,这些数据应是得到公民授权的。公众需要知情和同意,也不应未经公众许可,就出于采集以外的目的使用和交易数据。不然“大数据”会是个人隐私的一个“大灾难”。

最后举个例子作为收尾。

上海市容环卫局是管理上海市的公共厕所的。公民在生活中时有寻找公厕的需求。上海环卫局开发了一个类似大众点评的应用,可以帮助用户找到最近的厕所,有几个厕位,有没有提供厕纸等相关信息,还可以看到其他用户点评的信息。甚至可以为公众提供厕所导航的服务。

但是这个应用依然不是开放数据的思维。一方面在用户体验上,政府开放的应用在便捷度舒适度方面还是难以和市场开放的应用相比。更关键的是这个政府开发的应用中只有包括政府管理的“公厕”,而现实生活中,酒店、快餐店都是市民如厕的去处。因此对于政府来说,完全不需要自己开发这个应用,只需要开放相关公共厕所数据,然后让市场去进行这类应用的开发。百度、高德等厂商都会将这些政府开放的数据植入他们的应用,老百姓也少了多加载一个APP应用的麻烦。

(以上内容根据郑磊在微信群“69啪”中的微信课录音整理)

摘自:大数据文摘

PPV课其他精彩文章:


1、回复“干货”查看干货 数据分析师完整知识结构

2、回复“答案”查看大数据Hadoop面试笔试题及答案

3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝

4、回复“可视化”查看数据可视化专题-数据可视化案例与工具

5、回复“禅师”查看当禅师遇到一位理科生,后来禅师疯了!!知识无极限

6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布

7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载

8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募

9、回复“每日一课”查看【每日一课】手机在线视频集锦

PPV课大数据ID: ppvke123 (长按可复制)

大数据人才的摇篮!专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-05-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据的力量

马化腾:我判断,互联网接下来的七个爆发点

16150
来自专栏互联网数据官iCDO

iCDO一周数据要闻:秒针发布中国数字营销地铁图;甲骨文发布Oracle自治数据库由腾讯运营;Safari成美国第一大移动浏览器

8月3日消息,腾讯社会研究中心和DCCI互联网数据研究中心联合发布《网络隐私安全及网络欺诈行为研究分析报告(2018年上半年)》,报告显示,几乎所有的安卓手AP...

15920
来自专栏FreeBuf

让安全攻城狮增值的五大职业技能

网络安全攻城狮并非单纯的码农,他们需要的不仅是技术,还有安全以及相关行业的知识,因此Python、Hadoop、MongoDB以及其他一些大数据分析工具就派上了...

23190
来自专栏大数据文摘

7类AI淘金者:各显神通,但钱到底被谁赚了?

18640
来自专栏罗超频道

百度Q3财报利润增长变缓?yes,百度在为明天花钱

百度昨日发布Q3财报,Q3总收入为89亿元,较去年同期同比增长42%。营业利润为33亿元,较2012年同比增长1.2%。2012年Q3,百度收入和利润增...

34560
来自专栏新智元

企业数超500万家,钉钉宣布进入软件硬件智能化融合的4.0时代

【新智元导读】 11月19日,阿里巴巴钉钉在深圳召开2017秋季战略发布会,宣布进入软件硬件智能化融合的钉钉4.0时代。 作为服务超过500万家企业的全球最大企...

443170
来自专栏PPV课数据科学社区

好文章 | 掘金大数据产业链:上游资源+中游技术+下游应用

【背景】 我们正处在一个数据量爆发增长的时代。 在摩尔定律长达50年的支配下,当今的信息产业呈现出前所未有的繁荣,新的互联网技术不断涌现。从传统互联网的PC...

1K70
来自专栏企鹅号快讯

微信支付推出人脸识别智慧时尚试衣间,无感购物即将来袭

腾讯不愧是走在了时代的前列,最近推出的微信小程序“网证”刚刚刷爆朋友圈,还没等热度下降,微信支付就又宣布推出可以进行人脸识别的智慧时尚试衣间,再次颠覆了人们对传...

42560
来自专栏AI科技大本营的专栏

发改委:组织实施2018年“互联网+”、人工智能创新发展和数字经济试点重大工程的通知

人工智能/互联网+/发改委国家发展改革委办公厅关于 组织实施2018年“互联网+”、人工智能创新发展和数字经济试点重大工程的通知   发改办高技〔2017〕16...

44090
来自专栏机器人网

资深机械工程师如何看中国机械大环境,太有同感了!

中国机械大环境的大环境是啥样的呢?或许每个人都会说,“不太好”、“大而不强”、“制造强国”,面对这个问题,觉得很惶恐,但是不得不答,问题虽然大,但是道理不说不明...

24540

扫码关注云+社区

领取腾讯云代金券