大数据如何破解腐败密码?厉害了

戳上图,订阅2018年《方圆》杂志

美国最高法院大法官刘易斯·布兰迪斯(Louis Brandeis)曾写道:“阳光是最好的防腐剂。”在全球共同推动下,大数据所释放出的威力如火如荼。

今天是联合国确定的第十四个国际反腐败日,中国近年来的反腐败工作及成果已经得到国际社会的广泛认可,泄密文件、大数据和开放式政府正推动着全球的反腐行动。通过向公众提供信息和利用大数据分析,国家可更好地监督公职人员和企业。

我们来关注发生在巴西的故事,数据的公开引发了国营石油巨头巴西石油公司逃税和回扣方案的丑闻,并使得迪尔玛·罗塞夫(Dilma Rousseff)总统下台。在席卷巴西全国的大规模抗议和反诉中,很容易忽略导致罗塞夫总统在 2016 年 8 月 31 日被弹劾所涉及的严格的技术司法案件。

实际上,罗塞夫被指控挪用了政府预算—大多数人认为她通过在会计账目上弄虚作假来掩盖公共财政的真实状态。非营利组织“开立账户”(Contas Abertas)率先发现了这些违规行为,该组织审查了依据巴西信息公开法律公布于两个主要政府透明门户网站联邦预算网(Orçamento Federal)和透明门户网(Portalda Transparência)上的预算数据和文件。“开立账户”将这些违规行为透露给了巴西联邦审计法院(TCU)。联邦审计法院展开了调查,政治程序紧随其后。看似矛盾,但恰恰是政府对透明度的强制要求为揭露政府策划的骗局铺平了道路。

罗塞夫弹劾案展现了如何使用开放数据对领导人问责。这个故事展示“大”而“开放”的数据如何通过快节奏、证据驱动和众包的行动来推动反腐斗争。开放数据可将大量的信息提供给无数的监督人和揭发者。

大数据可以将这些信息转化为洞察,使腐败更易于识别、追踪和预测。为了兑现这场运动的所有潜能,技术专家、活动家、官员和公民都必须加倍努力,将数据分析融入政策制定和政府机构中。

全球总动员

社会的结构化转型让数据活动家能够利用信息来改进问责机制,新兴的大数据运动就是这种转型汇集的结果。这些变化包括:大数据的涌现,计算和分析能力的同步增长使得利用数据成为可能,以及全球性推动政府公开数据供大众监督的行动。

首先,大数据运动起源于全球私营部门和个人在其日常互动中产生的数据。新的信息驱动型经济每天都会在全球产生大量的新数据。2015 年,全球有 35 亿互联网用户,有 46 亿人使用手机通信和交易。根据 IBM(国际商业机器公司)大数据和分析中心在2015 年进行的分析,全球每天产生 2.5 万亿字节的数据,且当前的数据中有 90% 是在过去两年内产生的。麦肯锡公司在 2013 年对 7 个主要的经济领域进行了调查,其得出的报告显示,利用数据有助于释放 3 万亿~ 5 万亿美元的经济价值。审计咨询公司普华永道表示,大数据的市场规模在 2013 年为 50 亿美元,预计到 2017 年将超过 500 亿美元。

大数据有四个特征:大容量(巨大的数据集)、高速(产生新数据的频率极高)、多样性(数据来源和格式多样化)以及对其精确性的关注(管理大数据的不确定性)。

迄今为止,大数据运动一直致力于提取和利用新型数字经济中的公众数据,特别是把他们作为目标消费者来更好地了解。相比之下,它并没有被积极应用于分析政府和企业的工作。但在我们的新数字时代,这一切正在逐渐改变。

其次,大数据运动依赖计算能力的增强来为公共利益服务。大数据主要来自私营部门和个人,而开放数据则是公共部门的事。在公共部门内,全球政府的数字化转型推动了数据革命。第一组数字化政府改革的重点是通过升级“后勤部门”的职能来改善政府的运行,旨在提高政府部门效率,改善公共服务质量。这些行动由信息技术和电子政务创新驱动,意味着政府办公程序的自动化和数字化。第二组数字化政府改革的重点是“前沿部门”的职能,旨在让政府为所有公民服务,从而重塑国家和人民之间的关系。包括将公共服务集中在一个在线平台上,让公民能够完成诸如领取出生证明或在线登记财产等事务。这两组行动也会转而持续产生数据流,当然,这些数据还有待进一步开放。

与此同时,政府正在逐步公开其数据,供公众监督。更主动地披露政府信息的时代过渡。这一趋势正蔓延到多个国家。巴拉圭政府在2014 年通过了相关法律,而阿根廷政府也在更新数据公开的相关法律。决心改革的政治家通常需要拿出个人的勇气,来推动数据透明化改革。2013 年底,巴拉圭总统奥拉西奥·卡特斯(Horacio Cartes)推出一项计划,通过新的信息公开法开放政府数据,其口号是:“公共的必须公开。”

一些国家正在步入第三个阶段,基于更加严格的“默认公开”原则来改善公众获取公共信息的途径。2009 年,奥巴马总统发起了一项雄心勃勃的开放式政府倡议,要求联邦机构通过操作简便的综合性网站主动披露政府信息,也就是在一个门户网站上集中所有的政府服务。其中包括承诺以开放数据格式发布政府数据库。这种数据格式的“开放性”不仅指其公开可用,也指其“互用性”—利用现成的软件和计算能力来集成、整合和交叉验证数据集的能力。2013 年 5 月,奥巴马总统签署行政命令,将公开、计算机可读取定为政府信息管理的新标准。在反腐领域,开放数据的真正价值在于其可以让多个数据集相互联系,从而识别和揭露腐败的迹象和模式。

我们从发生在巴西的故事中可以看到,使用开放数据来防止腐败的一个关键领域就是公共财政管理,包括预算、税收和采购。国际预算促进会(The International BudgetPartnership)的开放预算指数(Open Budget Index)显示,政府在公开其预算数据供公众监督方面有很大的差异,且进程缓慢。在 2015 年接受调查的 102 个国家中,只有24 个国家的预算足够透明(在 100 分制的预算信息公开可获取性评分中得分高于 62 分)。

公共采购是腐败的一个关键风险领域。据全球发展中心(Center for GlobalDevelopment)的统计,全球政府每年通过合同支出约 9.5 万亿美元,占全球 GDP 的15%。但是据开放合约伙伴关系联盟(Open Contract Partnership)的报告,在参与开放数据指数调查的 120 个国家中,只有不到 10% 的国家能够提供优质、及时且计算机可读取的政府合同数据。据世界经济论坛(The World Economic Forum)估计,政府每年用于建筑施工的 7 万亿美元中,有 10%~30% 因腐败而损失。

数据分析的多面性

公开大数据本身并不能推动反腐工作。2014 年白宫发布的一份关于大数据和个人隐私的报告强调:“我们可以对大数据集全部或有选择性地存储和检索,但是如果不做分析,我们得到的结果和输入的东西是完全一样的。”

在此背景下,有必要区分数据分析的四个主要阶段来体现其在全球反腐行动中的潜力:在分析复杂的政治问题时,“描述性分析”使用数据来描述已发生的事情;“诊断性分析”更进一步,通过挖掘交叉验证数据来解释某一具体政策问题出现的原因,找到根本原因,并解读潜在的结构化趋势;“预测性分析”通过机器学习,使用数据和算法来预测接下来极有可能发生的事情;“规范性分析”则提出应该采取怎样的行动来促使或阻止某件事的发生。

数据分析在反腐领域内的几项应用都有着不错的前景。众包,特别是通过移动应用程序,可以为公民提供有效的工具去发现各种腐败迹象。移动技术让公民能够更便捷地获取公开信息,为他们提供对公共服务进行投诉或谴责不当行为的渠道。

比如,在印度,一项名为“我行贿了”(I paid a bribe)的应用程序让公民举报官员的受贿和欺诈行为来打击腐败。同样,哥伦比亚总统的政务透明度秘书处研发了一款应用程序,可以让公民举报未完成的或花费过高的公共工程。据《时代报》(ElTiempo)报道,到2015年底,总共发现了83项这样的公共工程,总价值高达5亿美元,并促使执法部门启动了刑事诉讼。然而,这两款应用程序都未实现公民和官员之间的双向互动,也不开放匿名的原始数据供公民自行分析,或许这是出于隐私的考虑。

推动数据驱动型反腐的三种方法

世界各地的新闻证实了数据能为促进反腐行动带来极大的机会。但是,如果没有进一步支持,这一前景将无法完全实现。具体而言,可以通过三种方法来实现数据在全球反腐行动中的最大潜能,即便是在贪腐长期存在且数据搜集和分析能力普遍偏弱的发展中国家。

第一,提高数据的质量和覆盖范围。只有当输入的数据可靠且来源广泛时,先进的分析工具才能提供有用的见解。关于数据方案的公共讨论倾向于强调传播(开放数据)和使用(大数据),却忽略了数据的产生。如果我们要在决策时更重视数据,我们就应该从一开始就在意数据的质量。政府应能够生成、收集和传播高质量的官方统计数据,并维护可及时生成可靠数据的有效管理登记系统。

在覆盖范围方面,数据的可用性和整体经济水平有着密切的关系。大多数发展中国家的整体情况和发达国家形成了鲜明的对比:电子政务不够发达,互联网普及率和数字化能力较低,某些地区的电网不可靠甚至根本就不存在。因此,这些国家产生的数据较少,也未能广泛传播,这有可能导致不平等现象长期存在和造成社会排斥的风险。首先,基于数据的决策可能偏向于有数据可用的区域,而忽略没有数据的区域。其次,基于数据的问责机制可能会缺乏效力。无法上网的公民不能查阅在线发布的采购合同或学校绩效排名,也无法做出决定。以上风险提醒我们,需要继续努力扩大宽带覆盖范围,向公民提供基础的计算机和互联网技能培训,提升他们使用透明度高的门户网站等政府监督工具的能力。

提升数据的覆盖范围和公开性,特别是用于反腐,可能会在发展中国家遇到较大的政治阻力,特别是在那些公共机构能力有限及政府机构自主性受限的国家。在权势阶层眼中,即使是像普查数据这类基础信息的传播都可能会影响到他们的利益。

例如圭亚那禁止在 2015 年的总统大选前公布 2012 年的人口普查数据(显示了重大的人口变化),起因就是担心公布该数据会带来的政治影响。而在反腐行动中更敏感的信息,比如收入和财产申报以及公共部门合同的细节,自然会面临更大的阻力。考虑到权势阶层认为发布数据可能带来的风险,以及支持开放数据的政治势力的相对实力,开放数据和大数据的影响或许在最需要这些数据的地方仍然会非常有限。

第二,培养政府的数据分析能力。为了发挥大数据和开放数据在反腐方面的潜力,政府必须建设自身能力,以产生有用的洞见并将其融入政策制定和实施过程中。政府自身的技术能力对反腐的可持续性非常重要。虽然将某些具体任务外包给企业或许是有效的解决方案,但算法和软件通常具有专有性,这意味着一旦这些企业离开(或将价格提升到无法接受的高度),政府就无法升级、修改或扩展方案。与此同时,政府在吸引和保留数据分析师方面也遇到了困难,因为他们即便是在私营部门也是稀缺资源。考虑到人才的普遍缺乏,拥有专业技术的数据人才通常会同给出最好待遇的雇主签约,而政府很少能提供这样的待遇。

在丹麦和英国,它们专注于通过孵化创新方案和利用数据来完善政策。在北美和拉丁美洲,智利、哥伦比亚、墨西哥、巴西和乌拉圭等国家,以及布宜诺斯艾利斯、墨西哥城、基多和蒙得维的亚等城市都建立了这样的实验室。对于调查组织和检察机构,它们的数据分析能力还存在重大差距,大数据可在此方面提供很大的帮助,特别是反腐机构应通过建立反腐实验室来提高其分析能力。

第三,使数据分析更加透明,并扩大其作用范围。任何需要高度专业技能的工具都面临只有少数人掌握的风险,大数据也不例外。正如非营利性民间新闻网站“为了人民”(ProPublica)的记者茱莉亚·安格文(Julia Angwin)在《纽约时报》(TheNew York Times)一篇专栏文章中要求的那样,大数据运动需要通过揭露决策过程来“让算法变得通俗易懂”:数据来自何处?支持计算的假设是什么?不同数据点的权重为多少?用于确定危险的阈值是多少?算法必须接受核查,从而避免数据产生或存在偏见。必须有保留地看待从数据探索和推断中得到的结果,并谨记相关性(不管暗示性有多么强)并不能确定因果关系。

此外,大数据运动的反腐行动若要有可信度,就必须更积极主动地应对企业部门的风险。数字平台“开放企业”(Open Corporates)正在通过汇集政府和企业公开的数据,打造一个开放数据库,其内容包括全球所有注册公司的全部实益拥有人(不一定具名出现在公司所有权证上,却分享公司收益的实际所有人)。该数据库目前涵盖来自 115 个不同司法管辖区的 1.1 亿多家企业的信息。

虽然大数据运动在反腐方面有着很大的潜力,但仍然存在诸多挑战。开放数据和大数据的灵活使用不仅要侧重于揭露腐败,还应更好地了解其深层次的原因,避免再次发生腐败。反腐分析不能虚幻地存在,必须以高质量信息为基础,通过改革来匹配战略制度框架。即便是最复杂的技术和数据创新都无法阻止法国小说家泰奥菲尔·戈蒂耶(Théophile Gautier)所说的“腐败具有让人费解的吸引力,即便是对最诚实的灵魂而言”。除非将数据分析用于改善国家治理和公共制度,否则它就不能产生其应有的影响力,或者长期持续这样的影响力。

作者:

卡洛斯·桑迪索

美洲开发银行(Inter- American Development Bank)国家部门机构能力分部负责人。

本·罗塞斯

美洲开发银行国家部门机构能力分部研究协调员。

本文来自企鹅号 - 方圆媒体

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

100万年薪只是起步价!跨境AI人才遭疯抢后最终去了哪儿?

作者 | 张明明,鸽子 本文是《跨境AI人才潮》的第二篇特稿。想要详细了解AI人才话题,请参看:《AI人才缺失催生的“跨境猎头”,人才年薪高达300万,猎头直赚...

2945
来自专栏罗超频道

智能手机回归商业本质:与其奇技淫巧不如好好做产品

“只有潮退了,才知道谁在裸泳。”中国智能手机市场进入了存量市场,天花板到了,生意没那么好做了。 中国手机行业正在上演第二次洗牌 IDC数据显示,2016年小米的...

3276
来自专栏数据的力量

王明夫:这是个打劫的时代。先劫人,后劫事业,你死,我活

本文由虎嗅摘编自君和资本董事长王明夫在年终例会上对200多名全伙人的讲话。

762
来自专栏罗超频道

这个平台让人人能做天使投资,且像雷军那样只投人不投项目

微博不只是有娱乐八卦,还有年轻人的梦想。最近一名95后大学生想去旅行的方式有些不寻常,他直接在微博宣告: “谁愿意用50万支持他去南北极旅游,他将用毕业5年内...

2613
来自专栏AI科技评论

京东集团副总裁裴健:智慧供应链 | CCF-GAIR 2018

AI 科技评论按:2018 6 月 29 日至 7 月 1 日全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网...

1066
来自专栏前端架构

BAT员工内部级别及对应薪酬速查表

2015年,先看下BAT内部级别及薪资待遇,也算是给自己一个新年目标了。薪酬是职场的主要动力之一,在羡慕别人工资的同时,反思一下自己的能力和工作状态,如果对自己...

770
来自专栏罗超频道

联创人白干七年黯然退出,背后秘密现才真相大白

一位妻子为了创业7年的丈夫遭遇股权不公而撰写的一篇微信文章,阅读量10万+。文章中这位妻子表示,其丈夫是某游戏公司的2号员工,一起创业七年,辛勤付出,只拿低于市...

34015
来自专栏人称T客

“中国合伙人”生存最真实法则:创业七年后为何你会选择离开?

T客汇官网:tikehui.com 撰文 | 杨丽 ? “创业七年,合伙人被逼走”事件如同一块飞过湖面的乱石,瞬间在互联网圈砸开了花。 近日,一篇名为《就算老公...

3735
来自专栏灯塔大数据

洞察|报考大数据专业前你需要看完这些

高考阅卷紧锣密鼓,月底即将陆续放榜,届时考生将会面临与高考同样重要的问题:志愿填报。今年有一个获批的新增专业备受瞩目——数据科学与大数据技术。 “大数据”概念...

2716
来自专栏VRPinea

拿什么拯救你,正处于水深火热之中的VR线下体验店?

3239

扫码关注云+社区