DeepMind用区块链系统挑战深度学习黑箱,数据可验证透明处理

【新智元导读】 DeepMind 不能光靠打游戏获取关注度来过日子,能否持续发展,医疗项目是非常关键。医疗最麻烦的就是数据隐私问题,从本文看来,他们是想用区块链机制来解决,并且在2017年年中就会推出相应技术——“可验证的数据审计” (Verifiable Data Audit),本文带来这一技术的详细介绍。在医疗领域的落地中,DeepMind 能否再造“AlphaGo奇迹”?

2016年7月,立志要在智能医疗上发力的 DeepMind 首次将机器学习用于纯粹医疗研究。——NHS 的 Moorfields眼科医院将向 DeepMind 提供100万份匿名的眼球扫描资料,后者被用来对机器学习算法进行训练,以便更好地发现湿性年龄相关黄斑变性以及糖尿病视网膜病变等眼疾的早期迹象。

半年过去,DeepMind发现:“监管上的创新与技术上的创新同等重要”,因为在医疗领域,数据隐私和安全的重要性是怎么强调都不为过的。为了保证能获得足够多的数据进行技术研发,DeepMind从区块链的机制获得启发,提出了“可验证的数据审计” (Verifiable Data Audit)的项目,并计划在今年年中的时候发布,对接合作医院。

“可验证的数据审计” 是什么?工作原理是怎样的?能带来什么影响?下文这篇DeepMind的官网文章进行了深入的介绍:

数据可以成为社会进步的强大驱动力量,帮助我们最重要的机构提高服务社会的能力。随着城市、医院和交通系统都找到了新的方法从数据中理解大众的需求,他们也正在发掘出新的机会,来改变工作方式,为更好的未来找到更多令人兴奋的创意。

只有获得社会的信任和信心,数据才能够造福社会,在这一点上,我们都面临一个艰巨的挑战。现在,你可以用数据来做各种各样的事,人们可能不仅会问到底是谁持有这些信息,或者这些数据是不是得到保密,他们还想得到更进一步的保证,那就是——这些数据会被用来干什么?

在这种背景下,(数据的)可审计性(auditability)成为了一个越来越重要的品性。任何精心制造的数字化工具都应该记录自己是如何使用数据的,并且在面对质疑时,要能够展示和合理化这些记录。

我们把这种审计的过程做得越强大、越稳当,那么,关于数据在实践中是如何被使用的这件事,我们就越容易在公众中建立起真正的信任。

想象一下,如果有这样一种服务,关于每一个人的数据的使用情况,它都能提供数学上精确的保证,剔除掉任何伪造或遗漏的可能性。

想象一下,该系统的内部工作能够被实时检查,以确保数据只能按照既定的目的进行使用。

想象一下,支持这种功能的基础设施可以作为开源项目免费提供,因此世界上任何组织都可以开发自己的版本的工具,只要他们想。

这一项目的名称是“可验证的数据审计” (Verifiable Data Audit),我们真的很兴奋,可以在这跟大家分享我们的计划中的更多细节。

DeepMind Health 可验证的数据审计揭秘

在今年年中,我们将开始为DeepMind Health建立可验证数据审计工具,我们致力于为医疗服务提供可帮助临床医生预测,诊断和预防严重疾病的技术 ,这是DeepMind 部署为社会造福的技术的一个关键任务。

鉴于健康数据的敏感性,我们一直认为,我们在监管上也应该像在技术上一样追求创新。我们已经邀请外部人士对 DeepMind Health进行额外监督,我们任命了一组未独立审核员,负责审核我们的医疗工作,完成审计,并发布年度报告及其调查结果。

我们把可验证数据审计工具看成是这种监督的一个强有力的补充,给予我们的合作医院一个额外的实时并且可以完全验证的机制,以检查我们是如何处理数据的。考虑到私人医疗数据的敏感性,以及每一次对数据的处理都应该获得授权,获得病人同意,我们认为这一方法在医疗中尤为有用。比如,一个拥有医疗数据的机构不能把用于提供医护的病人数据简单地用来进行研究,也不能未经许可重新调整研究数据库以进行使用。

换句话说:重要的不仅是数据被存储在哪,而且还包括,这些数据被用来干什么。我们希望把这一过程变得可验证、可审计的,并且是实时的。这是历史上首次。

借助区块链机制,任何人都抹不掉数据交互记录

那么,它是如何起作用的?在与医院的合作中,我们是一个数据处理器,也就是说,我们的角色是在题目的指示下,提供安全的数据服务,医院在整个过程中保有完全的控制权。现在,任何时候只要我们的系统接收或者接触到相关数据,我们就会创造一个对交流过程的日志,它可以在需要的时候被审计。

有了可验证的数据审计工具,我们将会有进一步的发展。每次与数据进行任何互动时,我们都将开始向特殊数字分类帐添加条目。该条目将记录已经使用了特定数据的事实。同样地,我们也会记录使用原因,比如,为什么血液检测的数据被输入到 NHS的算法中,用于检测可能的急性肾损伤。

分类帐和其中的条目将共享区块链的一些属性,这是比特币和其他项目背后的创意。像区块链一样,分类帐将是只能加不能减的(append-only),因此一旦添加了数据使用的记录,它就不能被擦除。和区块链一样,分类帐将使第三方能够对其进行验证,所以没有人敢篡改任何条目。

但在几个重要的地方,它也不同于区块链。区块链是分散的,所以任何分类帐的验证是由广泛的参与者之间的协商一致决定的。为了防止滥用,大多数区块链要求参与者重复执行复杂的计算,相关成本相关成本非常大(根据一些估计,区块链参与者的总能量使用可以与抵得上塞浦路斯全国的电力消耗)。当涉及到医疗时,这是没有必要的,因为我们已经有可靠的机构,如医院或国家机构,可以依靠它们验证分类帐的完整性,避免像区块链一样的一些浪费。

我们还可以通过替换区块链的 “链” 部分,并使用树状结构来提高效率,二者的整体效果是相同的。每次我们向分类帐添加一个条目时,我们将生成一个称为“加密散列”的值。此散列进程是特殊的,因为它不仅汇总最新条目,而且还总结分类帐中的所有先前值。这使得实际上不可能有人回去并秘密地改变其中的一个条目,因为这不仅将改变该条目的哈希值(hash value),而且改变整个树的哈希值。

简单来说,你可以认为它有点像层层叠游戏的最后一步。你可以尝试轻轻地拿起或移动其中一件,但是由于整体结构,这将会造成全盘崩溃。

用来干什么?

所以,现在我们有一个改进版的审计日志:一个完全可信的,高效的分类帐,它会捕获所有与数据的交互。它可以由一个信誉良好的第三方在医疗保健社区进行验证。那么,我们会用它来干什么?

简短的答案是:大大提高这些记录的审计方式。我们将建立一个专门的在线界面,授权我们合作医院的工作人员可以用来实时检查 DeepMind Health 对数据的使用情况。

它将能连续验证我们的系统是否正常工作,并使我们的合作伙伴能够轻松地查询分类帐以检查特定类型的数据使用情况。我们还希望我们的合作伙伴能够采纳自动查询功能,有效地设置警告,这样在任何异常情况下会有警报触发。而且,未来,我们甚至可以让我们的合作伙伴选择允许他人检查我们的数据处理情况,例如个别患者或患者组。

面临的技术挑战

这一项目的打造工程肯定会面临巨大的困难,但是,考虑到问题的重要性,我们认为值得为之付出。现在,有三个技术的挑战最为突出:

1. 无盲点

为了证明这是值得信赖的,数据使用不可能在没有登录分类帐的情况下发生,否则,这一概念就完全没有办法成立。除了设计日志以记录与数据的任何交互的时间,性质和目的之外,我们还希望能够证明没有其他软件在后台秘密地与数据交互。

除了在分类帐中记录每一次数据交互之外,我们还需要使用正式的方法,以及经过专家审计的代码和数据中心,以证明数据中心中的每个软件的每次数据访问都由这些日志记录。

我们对确保硬件的可信赖也很感兴趣——这是计算机科学领域的一个研究热点。

2. 不同组,不同用法

部署的核心将是一个接口,以允许我们的合作医院可证实、实时检查数据使用情况,我们只在经过允许的目的中使用病人数据。如果这些合作伙伴希望将这种能力扩展到其他人,例如患者或患者团体,还有复杂的设计问题需要解决。

日志条目的长列表对许多患者可能不是有用的,并且一些人可能更喜欢阅读统一视图或者依赖于可信的中介。同样,患者组可能没有权限查看识别的数据,这意味着允许我们的合作伙伴提供某种形式的系统信息,避免无意地揭示患者数据。 例如,是否已经在特定数据集上运行机器学习算法。

有关我们如何提供已验证的子集的访问或数据的概要的技术详细信息,请参阅我们的开源项目 Trillian project,我们也将使用这个项目,然后这篇论文解释了其工作原理。

3. 分散的数据和日志没有差别

英国还没有一个患者识别信息数据库,因此治疗过程涉及数据在医疗提供者、IT系统,甚至患者控制的服务(如可穿戴设备)之间的传输。使这些系统可协同操作需要很多工作(我们的移动产品 Streams 是为可协同操作标准构建的),以令它们可以一起安全地工作。这些标准也包括可审计性,以避免数据在从一个系统传递到另一个系统时造成不可复制的缺陷。

这并不意味着像 DeepMind 这样的数据处理器可以看到来自其他系统的数据或审计日志。日志会保持分散,就像数据本身一样。审计的可相互操作性只提供额外的保证,这些数据不会被篡改,因为它们在系统之间传播。

这是一个重大的技术挑战,但我们认为应该是可行的。具体来说,有一个被称为 FHIR 的新的医疗可相互操作性的开放标准,可以扩展来以可行的方式包含可审计性。

我们希望能够在今年晚些时候实现这些计划的第一部分,并计划随时在博客上发表我们的进展和我们遇到的挑战。我们知道这非常困难,而且最艰巨的挑战并不是技术上的挑战。我们希望通过分享我们的流程和公开记录我们遇到的困难,将能够与尽可能多的人合作并获得反馈,增加这种基础设施在医疗保健领域得到更广泛使用的机会。

DeepMind Health 宗旨:永远跟随一线医护人员

视频内容

DeepMind联合创始人、DeepMind Health 负责人的Mustafa Suleyman在伦敦的国王基金会(King's Fund)发表演讲。

2016年,DeepMind联合创始人、DeepMind Health负责人Mustafa Suleyman 在伦敦的国王基金会(King's Fund)发表演讲,表明其宗旨是“永远跟随一线医护人员”(Always be clinicians led)。NHS公共医疗数据风波时,DeepMind Health也明确自己只作为“数据处理器”。服务于医护人员而非病患,或许是DeepMind这个智能医疗新玩家最大的不同。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2017-03-11

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏程序员互动联盟

为什么游戏公司,要不断升级游戏?

其实玩过游戏的都知道,今晚还玩的游戏的明天就提示升级,不升级不让玩,和普通的电脑软件不一样,可以选择不升级的还能继续使用,为啥游戏公司这么霸道,为啥升级这么频繁...

36870
来自专栏WeTest质量开放平台团队的专栏

打造移动应用与游戏安全防线,腾讯WeTest安全服务全线升级

原文链接:https://wetest.qq.com/lab/view/416.html

12820
来自专栏罗超频道

解读本季百度移动报告:PC、手机浏览器没落和App困境

罗超为虎嗅网、雷锋网、TECH2IPO等网站撰稿,2013年5月14日发表于首页 百度今天正式发布2013年Q1移动互联网趋势报告。这是一个例行季度报告,每期不...

35930
来自专栏人称T客

Verizon 2018年报告解读:大部分企业对移动安全过于自信

89%的组织仅仅依靠单一的安全策略来保证他们的移动网络安全。 61%则表示,他们在移动安全方面的支出在2017年有所增加,只有10%的人表示其支出显著增加。 在...

35250
来自专栏CDA数据分析师

译文 | 如何掌控你的客户关系管理数据?

CRM(Customer Relationship Management,客户关系管理)用于在企业经营中取得更高的效率。通过投入大量时间在CRM上,销售团队应该...

24970

简谈“个人云”

现在,让我们在脑海设想一个简陋而无窗的房间,里面堆满了大量的金属的机器。所有的机器都用多色的电线连接在一起,并且房间时不时灯光闪烁。你会用什么比喻来形容这个场景...

24370
来自专栏BestSDK

区块链、机器学,2018有关云的5大预言

云2.0成为主流 对于今天云中出现的所有令人难以置信的创新,我们所做的绝大多数东西仍然是基本的计算和存储。是的,在创建第一类虚拟机管理程序后逾16年,超过85%...

395100
来自专栏企鹅号快讯

一篇文章看懂小程序的六大分类

小程序现在已经成为了互联网圈的热门讨论对象。从 2017 年 1 月登场,到之后被称为鸡肋,再到现在反叛逆袭称为互联网圈的大热点,小程序经历了不小的高低起伏。 ...

588100
来自专栏java一日一条

30多年程序员生涯经验总结

在我30多年的程序员生涯里,我学到了不少有用的东西。下面是我这些年积累的经验精华。我常常想,如果以前能有人在这些经验上指点一二,我相信我现在会站得更高。

10320
来自专栏java一日一条

30多年程序员生涯经验总结

在我30多年的程序员生涯里,我学到了不少有用的东西。下面是我这些年积累的经验精华。我常常想,如果以前能有人在这些经验上指点一二,我相信我现在会站得更高。

8710

扫码关注云+社区

领取腾讯云代金券