基于区块链数据市场训练的机器学习模型

导读:

2.0大公司数据垄断时代进化到数据和算法公开竞争的Web 3.0时代。两者都直接商业化。

基于区块链数据市场训练的机器学习模型有可能创造出世界上最强大的人工智能。

它们结合了两个强有力的元素:一是隐私的机器学习。它允许在不泄露敏感隐私数据的前提下进行模型训练。二是基于区块链的激励。区块链系统将吸引最好的数据和模型,来使其更加智能。结果是在公开市场上,任何人都能够售卖他们的数据,同时保护他们的隐私。开发者则通过提供激励获得算法所需的最佳数据。

构建这样的系统极具挑战性,但简单的初始版本看起来是有可能的。我相信这样的市场将把我们从当前的Web 2.0大公司数据垄断时代进化到数据和算法公开竞争的Web 3.0时代。两者都直接商业化。

实施

举个例子,让我们先尝试创建一个完全分布式的系统,用来进行加密货币的交易。以下这些是架构类似系统的元素:

数据

数据提供者对数据拥有权益,并使其可供建模者使用。

构建模型

建模者创建模型并选择用于训练的数据。在不泄露基础数据的安全情况下,进行模型训练。模型也会有权益。

元模型的构建

基于算法创建元模型,该算法考虑每个模型权益。

创建元模型是可选的——你可以想象使用的模型是那种还没被整合进元模型中的。

使用元模型

智能合约采用元模型,并通过去中心化交易所在链上进行交易。

分配收益或损失

经过一段时间后,交易产生盈利或亏损。这种利润或损失在元模型的贡献者之间进行分配,这取决于模型有多智能。如果模型造成损失,该模型的部分或全部权益会被没收。同时,对于模型的数据提供者,也会执行类似的利益分配或权益消减机制。

可验证的计算

每个步骤的计算要么执行中心化,中心化则可验证且具有挑战性(使用类似于Truebit的可验证游戏),要么实施去中心化,使用安全多方计算。

托管

数据和模型要么托管在IPFS上,要么托管在安全的多方计算网络中,因为链上存储太昂贵了。

是什么让这个系统强大?

激励措施吸引全球最好的数据

吸引数据的激励措施是系统中最有效的部分,因为数据往往是大多数机器学习的最主要限制因素。通过开放式激励,比特币创建了世界上算力最强的新兴系统。同样,设计良好的数据激励结构将为应用程序带来世界上最好的数据。并且几乎不可能关闭这个有数千或数百万数据来源的系统。

算法之间的竞争

算法或模型之间的公开竞争,这在之前是没有过的。可以想象一下,一个分布式的Facebook,有着数千种竞争的“信息流”算法。

透明的奖励机制

数据和模型提供者可以看到他们获得公平的价值收益,因为所有计算都是可验证的,这让他们更有动力参与其中。

自动化链上执行

所有执行通过链上自动完成,并且价值直接转换为代币,这就创建了一个自动化且可信任的闭环。

网络效应

来自用户、数据提供者和数据科学家的多边网络效应使系统迅速自我增强。它表现得越好,吸引的资金越多,这意味着更多的潜在价值输出,这会吸引更多的数据提供者和数据科学家,他们使系统变得更加智能,从而吸引更多资金,实现自循环。

隐私保护

除了以上几点之外,一个更重要的是隐私保护。它允许:

1)人们提交私密的数据;

2)防止数据和模型的经济价值泄漏。如果在公开情况下不加密,数据和模型会被免费拷贝及被人使用,而这些人可能并没有贡献任何工作。也就是存在搭便车的问题。

对搭便车问题的部分解决方案是私下交易数据,即使买家选择再次出售或发布数据,其价值也会随着时间而衰减。但是,这种方法将我们限制在短期内使用的场景,仍然会产生典型的隐私问题。因此,更复杂更强大的方法是使用一种安全计算方式。

启示

首先,去中心化的机器学习市场可以突破当前科技巨头的数据垄断。在过去的20年里,巨头们对互联网上价值资源进行了标准化并商业化,形成了专属的数据网络和围绕数据产生的强大网络效应。结果,价值创建从数据转移到算法。(技术的标准化和商业化,我们即将接近数据垄断网络时代的终结。图表来自于Placeholder)

换句话说,他们为AI创建了一个直接的商业模式,喂养并训练它。

其次,他们创造了世界上最强大的人工智能系统。通过直接的经济激励吸引了最好的数据和模型。他们的力量随着多边网络效应的增加而增强。随着Web 2.0时代数据网络垄断商品化,它们似乎有可能成为下一个胜出者。我们可能还需要几年时间,但方向看起来是正确的。

第三,如推荐系统案例所示,搜索将被反转。不是人去搜索产品,而是产品去搜索和争取人(这种框架归功于布拉德)。每个人都可能拥有自已的策展市场,推荐系统根据个体相关性的定义,算法模型争相为其推荐最相关的内容。

第四,它们将使我们能够获得类似谷歌和Facebook等公司强大的基于机器学习的服务,同时不会泄露我们的隐私数据。

第五,机器学习发展会更快,因为任何工程师都可以访问开放的数据市场,而不是只有大型Web 2.0公司中的工程师才能获得。

挑战

首先,安全计算方法目前还相当慢,而且机器学习在计算上还很昂贵。但另一方面,由于人们对安全计算方法有了更多兴趣,一切正在变好。在过去的6个月内HE、MPC和ZKP性能提升的新方法已经出现。

一组特定数据或模型对元模型是有价值的,但关于如何计算价值还是很困难的。

清理和格式化众包数据也具有挑战性。我们可能会看到一些工具、标准化和小企业的组合来解决这个问题。

最后,具有讽刺意味的是,用于创建此类系统的通用构造的商业模式不如创建单个实例那么明确。这似乎更适用于许多新的加密原语,包括策展市场。

结论

机器学习与区块链激励相结合,可以在各种应用中创造出最强大的机器智能。随着时间的推移,存在可以解决的重大技术挑战。但他们的长期潜力巨大,并且有可能从目前大型互联网公司对数据的控制中脱颖而出。它们也有点可怕——因为系统引导出自己的存在,自我强化,消费隐私数据,几乎不可能停止,不可能被关闭,创建它们是否有点像召唤了前所未有的强大的异教神摩洛克(Moloch)?无论如何,它们是加密货币将如何慢慢地,然后突然进入每个行业的另一个突破口。

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181013B1BU2000?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券