【干货】吴甘沙:你是数据,我即生意

本文共5200字,建议阅读时间10分钟

本讲座选自因特尔中国研究院院长吴甘沙于2015年6月18日下午在“数据风暴中,谁将成为下一个产业颠覆者?”的清华大数据应用创新高峰论坛上所做的题为《你是数据,我即生意》的演讲。

讲座全文:

今天我会跟大家讲一个非常特别的话题,关于个人数据的问题。过去讲了很多的大数据,更多是在企业、互联网,前面两年花了很多时间讲开放数据创新,讲政府应该把数据开放出来,现在大家已经看到中国的政府,尤其是一些地方政府已经开始把数据开放出来。当然,我不是说我呼吁数据开放与今天这个结果有因果关系,这是大数据的相关性。

我觉得现在是时候开始讲一种新的大数据,就是个人数据。大家看这个题目有点拗口,叫做“你是数据,我即生意”。

什么意思呢?

你也许现在已经不是物理的存在,而是你的数据呈现出来的你。而我在某种意义上不再是某个公司的员工,我自己就是一个生意,我是我自己的CEO,我能够去货币化自己的数据,我做我自己数据的生意。这是一个比较独特的话题,如果你能认真听完我的演讲,这对你来说或许是一个新的商机。

首先,我想跟大家探讨几个问题。

第一个问题,就是你是不是真正的拥有你自己的数据?

我这边用的这个英文词叫own,它有几层意思,先用它的第一层意思,你是不是真正拥有你自己的数据?可能有不同的答案,很多人回答说我并不真正拥有我自己的数据。

为什么呢?大家不是说数据是石油,数据是资产,数据是货币,数据是原材料,数据是值钱的东西。但问题是,这是谁的资产?谁的货币?谁的原材料?我感觉不是我的。我的数据不是我的资产,这是现在大家很多人有的这么一个考虑。

当然还有很大一部分人回答说,我真正确实是拥有我自己的数据。但这不是好事,怀璧其罪,我因为拥有我的数据,体验到很多的麻烦,这些数据给我带来了困扰。

比如说隐私的问题,我们现在跟很多年轻人谈隐私,他们不能感觉到这对他来说是一个问题。他觉得我又不是一个爱看A片的中年大叔,我也没有同性恋,没有HIV,我又担心什么呢?但事实上,你换一个角度去看,也许你就能够理解到隐私对你的影响。

比如说你在用你的电脑时,有个人在你的背后看着,你是否会感到不舒适?这就是一个隐私的问题。事实上,当你在互联网上冲浪,在使用手机,在到处行走时,你留下了数字足迹,这里面有你的很多隐私。所以隐私的问题,给大家带来了困扰。

当我在网上购物时,留下了很多信用卡的信息,这可能是一个financial risk。很多人目前并不那么认为,我给大家讲一个故事。我有一次到一个地方去开会,住在一个很高大上的酒店,把信用卡给服务员预授权,把东西放到楼上以后,就去酒店的餐厅吃饭,吃完饭以后,在付款的时候,我突然脑子里面出现了三种选择,第一种选择是拿现金付款。

第二种选择是我拿信用卡付,同一张信用卡,或者是说计入房费,第三种选择是用另外一张信用卡付。为什么会出现这种考虑呢?我用现金付款,我的隐私泄漏最少,但是少掉了一些信用的点数。

如果计入房费呢?也不错,但是这个酒店更多的了解了我的行为,他不但知道我入住的行为,还知道我用餐的偏好。如果我用另外一张信用卡付呢,无论是连锁酒店还是每个信用卡公司,它对我的了解都比较片面,没办法给我提供更贴心的服务。

可能是我搞技术比较迂腐,但这确实是生活中数字时代的用户面临的不同选择。我回来以后跟我团队的人探讨这个问题,有少数人选择现金。有一半非常注重隐私的人,他就选择了用另外一张信用卡。而另外一半希望得到更好服务的人,选择计入房费。不同的人在这个上面有不同的考虑。

另一个困扰是SPAM,英文有两层意思,一层意思是午餐肉罐头,还有一个是垃圾邮件,垃圾短信。这也是人类数字历史上非常重要的发明,应该是在上世纪70年代发明的一种新的营销方式,那时候互联网还没出来,是ARPANET,在90年代的时候,SPAM一度占了网络流量的很大一部分。

当然现在比SPAM更先进的是精准营销。商家说我不是胡乱地给你发东西,我是基于我对你行为的理解,基于我对你的画像,来对你进行精准营销,microtargeting。

这按理说也是很好的事情,但问题就在于刚才Chris说的,亲密感(intimacy)和令人发指(creepy)之间这条红线怎么划分。这个广告的retargeting让我很烦恼,我浏览网店的时候,把某个货物放到购物车里面,但没有去买。

后面我浏览任何网页的时候,总有一个广告老是跟着我,在问你是不是对这个东西感兴趣,希望你再去买。但它不知道,事实上我可能已经在另一个地方买了,这就是对我们带来的困扰。

问题就来了,你到底在乎吗?不在乎吗?

先看这个,即使在技术圈子里面知道的人也不多,叫Do Bot Track,这是浏览器的一个功能,最早是在开源的浏览器里面。

后面微软的跟进,最后Google也开始支持。当然Google是很不情愿,一旦把这个打开了以后,它的广告就没办法对你进行精准的营销了。但问题是在于,圈子里面很多人都不知道这个功能,事实上知道这些功能的人,他也没有打开。

另外,大家知道现在量化自我这么一个运动非常火。很多人都戴上手环,这是一个非常著名的手环的隐私条款,它说我会把你的信息给其他服务商。而且我不能百分之百保证你信息的安全性。

但是用户是不是真正在意呢?

用户看都没看,就点接受了。所以从这两个例子上看,是不是我们大家对于隐私,对于这个数据是不是属于我,对于数据的安全真正很在意呢?好像是不太在意。

确实也有牛人支持这种观点,凯文·凯利就说在这个互联的时代里面,把自己藏起来是要付出代价的,你把自己的隐私送出去越多,那你获得的服务就越好,这就代表了一个很普遍的观点。

当然也有持不同观点的,比如杰伦·拉尼尔,他是虚拟现实的先驱者,他说你以为你把自己的数据给了那些人,就能获得更好的服务吗?

如果这个在线书店能够更多地了解你,了解其他人,我就可以做差异化的定价,你买这个东西可能要付出的钱,要比其他人买付出的钱要更多。所以他了解了你,并不一定说你能够获得更好的服务,你也许要多付钱,这是两个完全不同的观点。但这是思想家的观点。

我们再看看普通人,这是美国宾夕法尼亚大学做的研究。三个问题,第一个问题,如果说这个商家愿意给你折扣,你愿不愿意无条件地把你的数据给这个商家?这是第一个问题。我想了解一下在座的各位不同意的举个手?可能有一小半朋友在获得折扣后,还是愿意把你的数据给这个商家的。

第二个问题,如果说这个商家愿意给你提供免费的wifi,比如说星巴克给你提供免费的wifi,它会跟踪你上网的行为,来了解你的一些偏好,你愿意还是不愿意?请不愿意的举一下手?也差不多接近一半。

第三个问题,我这个商家是希望给你画像、给你提供更好的服务,所以我可能是需要能够了解一下你的一些数据,估计大家的接受度也是差不多一半。

看看美国的调研,绝大多数普通人事实上是对于自己的数据还是很在意的,并不是因为你商家提供一些小恩小惠,它就愿意把自己的数据无条件地给出来。

所以我今天这个演讲的目的,就是希望大家能够端正一个态度——在大数据时代的一个人生态度,对于自己数据的失控,你不要又不愿意又去忍受,甚至是还有些人有斯德哥尔摩综合症,你应该有一种新的态度,这里再一次用了own这个词,但意思不是拥有,而是负责。你对你自己的数据负责,这是你的数据,你要对你自己负责!

这个态度核心就是两个,一个叫面子,一个叫里子。面子就是你要真正地去在意你的身份问题,而里子呢,你对你的数据生意是能做主的、是可以从中赚钱的。

先说面子的问题,也就是我标题的前一半,你就是你的数据。你的物理外貌不是特别重要,真正重要的是你的数据呈现出来的你是什么样子。

我们现在知道,比如说我在这里,大家能够看到我是这么一个人。但同时呢,我又有一个数字的影子,叫数据画像。

我这个数据人包括了很多很多的东西,比如说数据的足迹,每个人在冲浪的时候,带着手机行走的时候,留下了很多数据的足迹。甚至不带手机,在现在的这个社会还是会留下很多数据的足迹,北京有一百万个摄象头,你每天至少能够在摄象头里面出现个十几次。

还有现在量化自我,我们要量化我的生理状况,量化我的心理状况,而这些东西都是数据。我们有各种各样不同的数字身份,我们在不同的网站上面,以不同的ID登录,不同的ID还带着不同的密码。

前几天我看到一个帖子,他说有个人挺有意思的,他公司要求每三个月改一次密码,所以他每次都设定一个很有意义的密码,未来三个月我要怎么改变我自己,怎么来实现我的人生目标,然后我就把这个作为我未来三个月每天登录时候都要输入的密码,蛮好的事情。但是这里面暴露了你的一个目的,暴露了你做事情的意义所在。

还有社交威望问题,我们每个人在社会上,在这个数字世界里面慢慢在培养我的社交威望。在国外有一家公司叫Klout,会量化你的社交威望。这里显示Klout分数是38,非常不幸,为什么呢?你满40的时候,就可以到机场用贵宾休息室了,但你的社交威望还差一点点。

还有你的信用,现在互联网征信非常广,它的一个理念是什么呢?所有的数据都是信用,这是国外的一个信用评分机构FICO,这个人积分是700分,很不错,因为这个分数可以在P2P的网站Lending Club上借到钱,如果低于690,就贷不到款了。

还有各种各样的消费行为,价值取向都反映在我们的数据当中,所有电商公司都会对个人进行刻画,你是一个什么样的人,他可能把你刻画成一个中产阶级,有孩子,花销起来精打细算,你会被录入到不同的桶里面,被帖上一个桶的标签。

我看到一个最有意思的桶叫“右键一族”,这些人的共同特点是喜欢用鼠标右键弹出菜单,而后面反映的共性是对于技术有非常高的敏感度。

所有这些组合起来就是你的数据人。

而你真实的人跟数据人是能够相互作用的。一方面,你不断地被量化,数据不断地去掉噪声,最后真实刻画成这么一个数据人,或者是你的数字影子。

另外一方面,因为它是一个数据人,他会无时无刻被大数据所影响。刚才说的Facebook,他要控制大家的情绪,就是一种影响。

甚至是我们在亚马逊上面买书的时候,你会参考推荐,这样一种个性化的推荐,就是大数据对你数据人的一种影响,个性化推荐本身是一个矛盾的修辞。说是个性化,但是它的结果又是把你变成跟其他人越来越相似。

所以在这么一个虚拟世界里面,你的数据人不断地在变。而这种变化呢?又会反馈到你真实的人上面去,所以你的真实的人和数据人相互作用,循环往复、不断变化。

这样导致一个问题,你越来越依赖于数据的你,而数据的你会给你带来麻烦。你点儿背的时候,第一个要考虑的不是怨社会,而是要怨数据,互联网、大数据永远把你忠实地记录下来,而且不能擦除,几十年前犯的一个事,现在还能用搜索引擎把它搜出来,永远跟着你走。

第二是数据会被滥用,现在大家都面临"big brother/big data dillema",有个老大哥会盯着你的数据,会滥用你的数据。

还有数据可能会带来歧视。给大家举一个例子,还是互联网征信的,它会对每一个人建立一个信用的模型,而这个信用模型里面用什么数据呢?

比如说你是金牛座的,那你很有可能在统计意义上面比处女座的人,借钱不还的概率要高一点。或者你这个人老是用IE6,我就认为你是常去网吧上网的人,没有正当的职业。如果老是半夜两、三点上网,没有正当职业,信用降低一点。如果以前上班都用这个IP地址上网的,突然换了一个IP地址,是不是失业了?不能全面、理性地使用这些数据,会导致歧视。

还有一个预测的困扰,刚才讲到未来预测是一个很重要的大数据特性,它有可能预测十几秒以后,你会买什么东西。这还想起来不错,但它也会预测你几十年后,会有什么样的毛病?如果说你几十年后,有40%的概率会患上某种癌症,那保险公司就不太愿意给你保险了。

大家看过一部电影,叫做《少数派报告》,里面有个情节,一堆警察破门而入,他说我是哥伦比亚行省预测犯罪局的人,预测你未来会犯罪,要把你抓起来。所以预测也会给我们带来麻烦。

所有这些都是面子的问题,决定了在数据社会别人眼里我是什么样子的,我们要认真地经营这个数据人。

经营的一个目的是什么呢?目的就是把我们真正变成我自己的生意,我真正地去own自己的data。

上面这句蛮有意思的,是歌手Jay Z说的,他说I AM NOT A BUSINESSMAN,别把我当做生意人,我自己就是生意。

做生意一定要有意愿去做,为什么要去做呢?

这还是拉尼尔给大家秀的两张图,第一张是钟型曲线,社会阶层的收入分布图,绿色部分是高收入阶层,很有钱,但是少数。红色部分是贫穷阶层,也占少数,中产阶级是占绝大多数。

但是现在互联网让中产阶级尾巴化,互联网有一个特点是什么?叫赢家通吃,老大、老二能活,老三就必须死。它赢家通吃了以后,把财富完全攫取在它的口袋里,而中产阶级只能变成长尾了。

为什么?拉尼尔给头部那些人取了一个名字,叫塞壬服务器,古希腊神话里面的海妖,唱着动听的歌,把过往的水手吸引过去后吃掉。他的意思是,那些互联网的巨头,给你免费的服务,给你精准的服务,让你把这个数据给它,它越来越富,你越来越穷。

我们要看看互联网是不是做错了什么?

首先一个,互联网本身网络是去中心化的。但是数据变得中心化了,这是一个问题。

第二个网络本身是非常开放和自由的,而且我们可以通过社会化的服务,把我们一些创新的门槛降低。但问题是在这个过程当中,数据使用是不透明的,数据使用缺乏信任,我们能不能去改变这么一个现状?

首先,法律法规应该先行,也就是说,我怎么能够利用法律法规来保障我的数据由我做主。第一是数据的拥有权,到底谁真正拥有这个数据。

我们很多数据是我主动给出的数据,拥有权肯定在我。比如说我登录一个网站,填入了我的私人信息,这个数据的拥有权在我。

还有一些数据是观察数据,我是被观察的人,而其他人是观察的人,那这些数据是属于观察的人,还是被观察的人?

还有一些数据是推理出来的数据,这个数据拥有权属于谁?如果说我不幸挂了,这个数据拥有权能不能继承或者转移?如果两个人离婚了,那这个数据拥有权怎么分割。

第二点是数据隐私权,什么数据是一定不能给你看的。第三个是数据许可权,在什么时间范围内、针对什么目的可以许可你使用,但这个许可权是可以撤销的,可以转移的,今天在Facebook里面,明天不想在这个里面待了,把数据全部拿出来,转到腾讯里面去。第四是数据审计权,我能不能去审计你对我数据的使用。

最后一个是数据分红权,数据有一个外部性,当时我采集的时候,是为了这么一个目的采集的。但未来它可以服务于另外一个目的,反复产生新的价值。对于未来产生新价值的时候,我能不能分红?

所有这些需求都是需要法律保障的。在中国这些东西还缺位。美国有了Consumer Privacy Bill of Rights,和欧洲有EU Data Protection Directive,但定义的也不完整,这个是需要未来十年去解决的。

这有两个东西,两手都要抓的,一个叫做商业模式,另外一个叫做技术,你必须有好的商业模式和新的技术,来去解决数据可控的问题,解决数据在一个信任缺位的世界里面,怎么能够去产生价值。

商业模式第一个就是要定价,对数据要进行定价。这是金融时报给的一个计算器,我在上面算了一下,我的数据价值0.66美金,当然就是让你回答了几十个问题,这几十个问题价值0.66美金,数据采集者把一千个人的数据打包卖给广告商,这是一种定价。

另外一个网站可以分析你Facebook里面所有的内容,你的朋友,你发的帖子,你的活动,给你算出来你的数据多少钱?这个还不错,380美金。

有一家新的初创公司Datacoup,索性就这么说,我每月给你8美金,你把你的Facebook、Twitter、银行交易的数据给我,我去找广告主变现去,每个月8美金还不错。

还有一个哥们就有意思了,把自己的数据放到众筹网站Kickstarter上面叫卖,筹到了2130多美金。所有这些都是把你的数据进行定价的不同方式。

定价以后就是货币化了,怎么把数据变现,这里面列出来了很多公司。

比如说Personal Cloud,你把你的一些数据存在他那边,以后你登录不同网站的时候,比如卖车的网站上面,你可以用Personal Cloud的帐号去登录,一登录了以后,它根据你的数据,根据你的一些行为,来推荐你喜欢的车的打折信息。

聚信立是反过来,你在它的浏览器里面用淘宝登录,就把你淘宝消费的记录全抓下来了,然后你也可以用你的移动帐号登录,你也可以用你的京东帐号登录,它根据这些消费数据,给你算出来一个信用,你有了这个信用可以申请信用卡,你也可以去P2P借贷去,享受某一个贷款利率。它让你自己登录了以后,把你的数据授权给它,它给你的数据带来价值。

比如说reputation.com,跟踪你的数据在互联网上的出现,有时候如果你的数据是负面的,帮你解决。

Hard shake可以根据你的位置实时给你发一些信息问卷,比如你在商场里的时候会收到一份跟特定促销相关的调研问卷,回答后给你一部分钱。

最下面这两家公司更好地帮助你利用你的数据,跟数据的使用方做更好的匹配,让你数据更好的变现。

所有这些公司现在都还很小,但是大家要知道,边缘创新都是从小公司开始的。大公司一开始是看不见,看不起,看不懂,最后来不及了。

我个人做技术的,在技术上面,我认为有近期、中期、远期三个路线。

首先近期我非常推崇OPENPDS,MIT做的一个开源系统,始作俑者是彭特兰,他在湛庐也发过一本书,《智慧社会—社会物理学》,讲到了这个OpenPDS。它就是一个数据库,不同的应用,不同的互联网服务想要使用你的数据的时候,不能直接拿,只能把一段代码发给这个数据库。

比如说这个潘多拉想要你了解个人对音乐的一些偏好,可以发请求到你的数据库里面,跑一段代码,它不能把你的原始数据抓出去,跑一段代码,在数据的聚合层面、统计意义上了解你是什么样的人,我给你推荐什么样的音乐。

这个系统的好处是在于,现在每个人的数据都在一起,而不是分布在Facebook、潘多拉各个地方,这样就不会出现每一个数据拥有方都是数据孤岛的问题,它也能够是不同的互联网服务更全面地去了解每个人。但同时呢,你又不能掌握我的数据,这是近期一个很好的选择方案。

中期,我给大家讲一个有意思的东西,这跟比特币有关。我个人并不特别看好比特币,但是我非常看好它下面这个基础设施,叫区块链,去中心化的、不需要信任的基础设施。

现在有很多的用途,我可以用区块链颠覆金融,我能够发股票,我能够发债权,做分布式的股权交易,我可以做资产的置换,做smart contract,都用区块链,比现在的方式要好。

但是也有人说区块链可以颠覆通讯,现在通讯都是国家安全局可以监控的,有人在做私密的Twitter,我上面发个帖子,NSA是看不到的。更多的有识之士相信区块链有可能颠覆未来社会运行的方式,颠覆未来整个的基础设施。

大家可以看这么个技术栈,未来的这个数据层,互联网数据层有可能就是建筑在这个区块链的基础上。在上面叠加网络层、应用层。

现在事实上已经有很多很好的项目,大家感兴趣的话,可以去参考一下。ethereum基于去中心化的互联网进行应用开发的框架。MaidSafe是去中心化的存储,SAFE指的是Secure Access For Everyone,也是基于区块链。OPEN MUSTARD SEED,还是彭特兰在MIT做的一个系统,基于硬件的可信计算和区块链2.0。未来个人数据也许就建筑在这些新的基础设施之上。

远期我认为未来的万维网,是Web of Data。现在的Web是web of html网页,而数据躲在Web服务器后面的数据孤岛里,未来数据直接是互联的,但又是可控的,在一个信任缺位的世界里数据能够相互发生关系,产生价值。

作为今天演讲的总结,在数据时代我们应该采取一种积极的态度经营我们的数据化身份和数据资产,我是数据呈现的我,我做我自己数据的CEO。

编辑:卢苗苗

原文发布于微信公众号 - 数据派THU(DatapiTHU)

原文发表时间:2017-03-08

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏包子铺里聊IT

一枚电商小兵的吐槽:高富帅 or 矮矬穷?

eCommerce 顾名思义就是电子商务,是指在互联网上以电子交易进行交易活动和相关服务活动,是传统商业活动各环节的电子化,网络化。 相信大多数人看到上面的描述...

289110
来自专栏华章科技

13个大数据应用案例,告诉你最真实的大数据故事

大数据真的太神奇了,真的可以让改变一个企业的运营吗?答案是肯定的。大数据目前是当下最火热的词了,你要是不知道大数据这个概念,都不好意思在众人面前开口了。然而实际...

26020
来自专栏Flutter入门到实战

一个十几年程序员给所有新老程序员的忠告

吉日噶拉(在外企、上市公司工作过,自己也创业失败过,遇到过很多失败挫折,甚至露宿街头,但是最后还是挺过来了),是一个十几年的程序员了,里面介绍了他的相关经历,以...

42830
来自专栏ThoughtWorks

TW洞见|我爱上的最难的一次IT面试

今日洞见 文章作者来自ThoughtWorks:Steven Lowe。译者来自ThoughtWorks:李江华。封面图片来自ThoughtWorks。 本文所...

31250
来自专栏机器人网

工业机器人和人工智能的区别

2025《中国制造》中都有两个热火朝天的话题:工业机器人or人工智能,But有的人貌似把两者混为一谈了。注意!请注意!两者是有区别的

16920
来自专栏ThoughtWorks

为留守儿童设计的IoT装置 | 思客看世界

思客看世界 文章作者来自ThoughtWorks:李昂。 本文所有内容,包括文字、图片和音视频资料,版权均属ThoughtWorks公司所有,任何媒体、网站或个...

32770
来自专栏DT数据侠

一份优质的数据分析师简历,应该是这样的......

雇主们对于掌握数据分析技能的人才越来越渴求。Tableau社区里有一群别出心裁的求职者,用视觉可视化呈现了自己的简历,更直观地讲述了自己的数据分析技能,一起来涨...

12000
来自专栏罗超频道

Super快报第3期:总结年底的那些总结们

年底新鲜事不多。各种盘点,各种总结,各种十大,多得看不完。今天对各种总结进行了一个总结。2012年的互联网:移动、云和大数据。 1、TECH2IPO年终策划:2...

289100
来自专栏鹅厂网事

互联网浪潮中做基础网络服务的几小招

"鹅厂网事"由深圳市腾讯计算机系统有限公司技术工程事业群网络平台部运营,我们希望与业界各位志同道合的伙伴交流切磋最新的网络、服务器行业动态信息,同时分享腾讯在网...

22090
来自专栏WeTest质量开放平台团队的专栏

Mate20兼容性如何?WeTest带你抢先测!

? 自从九月份 iPhone XS 系列发布后,WeTest团队迅速入库了iPhone XS和iPhone XR设备,十月份国内巨头华为也重磅推出了一款“Ma...

9510

扫码关注云+社区

领取腾讯云代金券