运营商数据量最大但不是大数据

2014年3月8日,在大数据领域非常有名的阿里巴巴数据分析灵魂人物车品觉接受了媒体的专访,就数据领域的问题谈了自己的认识,应该对很多正在进行大数据应用的专业人士有很大帮助。

大数据应用很重要的问题是:关于他的定位

大数据里面有一块非常重要的数据,而可能对未来的一两年特别重要,就是我们所讲的“关于他的定位”。我想知道一个人是谁?你是不是你?你在PC前面买了一件东西,不一定代表是你买的,有可能是你的老公或者是你的老婆在用你的PC去买,怎么知道到你就是你?这个在收集数据的时候相当重要。

另外,当我知道你就是你的时候?我下一个问题是你在PC或者手机上做了什么行为?以及你在哪里做了什么行为?这个对数据上的还原非常重要,否则的话很多东西是无法还原的。比如说你买这个东西是在公司里面,在移动还是不移动。我现在非常想知道一个人在用手机来买东西的时候,到底他在移动的还是在定在一个地方买东西的,这个数据对我非常重要。所以对一个点上的定位非常重要。

其实整个大数据来讲,用一个比较简单的说法是,当你去看完电影之后的五分钟,你饿了你想吃东西了,淘点点突然在这个时间给你一个信息说,旁边有个什么茶餐厅很好吃的,那个时候就是最对的时候,只要你送他一个优惠券可能就会去了。所以你到底怎么样去利用这个时间点的信息去推送更及时的东西,不一定是广告,很重要。但是这个首先要知道他准确的地理位置。

当我们讲大数据的时候,并不是一堆的数据,实际上是分为几块很重要的数据。第一个,你怎么去识别一个人,他就是他?另外一个,你怎么知道他在哪里他在做什么行为?第三个,这个行为是什么?再者,我们想知道他当时的关系是什么?这四种数据对未来很重要的。

过去PC的时代,对数据定位是比较少关注,今天会变得越来越重要。一个数据很有意思,在营销上的成功率。如果我们拿到准确的当的环境的话,我们会可以增加132%,如果我们很准确的知道人文数据,就是他是男的还是女的还是什么年纪等等,我们可以增长5倍。但是当我们知道他的行为数据的时候,我们就可以增加12倍。这三组数据是以行为数据最容易识别一个人的,但是他做什么之外还要知道他是谁,然后知道他的环境是什么样。

最重要的东西是三者的交叉。一个三十岁的男生,他在电影院刚出来的五分钟,他刚去看完电影的这个时候,你猜你应该推送一个什么样的东西给他,会让他满意呢?这个精准性对推送的整个营销会产生一种倍数增长的作用。

举个例子:早上的时候,我看见朋友穿了一件T恤觉得挺好看的,所以回到淘宝搜索一下T恤出来1万个结果,然后我老板在我旁边说开会,我站起来就去开会了,开会的时候我还是拿个手机过来看看,再搜这件T恤,结果旁边有个广告跟我说有个手表很便宜了,就买了一个手表。今天,我们大部分记录数据的方法,都只会记录有一个人买了一个手表一百元,但是,实际上整个东西的还原应该是刚才的样子。早上我的朋友穿了一件T恤我去淘宝搜索,我们不知道他为什么进来搜索,特别他为什么会停下来。但是,我们很多时候分析,会假定他停下来肯定是没找到东西,其实不一定的,可能旁边由于环境上的影响,就没有去再继续搜索了。后来时间许可之后,我拿个手机出来,问题是这个手机跟PC是没关系的,还以为另外一个人进来,因为我没有留下烙印,跳了一个东西出来说这个手表很便宜,已经把我刚才想找T恤的意图打破了,然后我就去买了一个手表。

整个链条中多少的东西无法还原,整个大数据我们说都很清楚了,其实我们也不是很清楚。所以,不要自己骗自己说,大数据什么都知道。很多的数据,事实上都还原不过来,真实的人告诉你的时候你会发现,是这样的。

昨天我台下问到样品数据跟大数据的关系,很多人在鄙视样品数据了,认为已经有大数据了,没必要发一个问卷出来问一下人家。但是我觉得,其实我们很多时候是用问卷的方法来找出一些方向,再用大数据来验证。有时候,大数据里面看到一些数据无法解释,会找一个问卷来去问问。因为什么?态度是没有办法用行为数据来知道的,就是一个人的态度只能在你一对一或者真的是问他的时候才能问出这个态度。所以,用样品数据可能会找到一些方向,在大数据里面寻找这个可能性的结果。

不要因为大数据出现之后,我们就对小数据或者对样品数据突然之间就据的很鄙视。没有必要鄙视的,其实都是一种工具。其实,大数据让我们用更多的角度来看一件事,并不是万能的。其实大数据并没有这么厉害,但是我们在努力,让大数据能再推到可以服务更多的社会大众。

心理状态数据很重要,但用起来很难

我们记录一个人是偏向于白天买东西还是晚上买东西,买东西的时间点到底习惯是怎么样?我们也把这个叫做他的心理状态,当时所买这个东西的心理状态,我们还没有到这个层次,但是有些大数据的美国专家已经到了这个层次,他的心理的状态对这个购买的影响,但是我们没有到。

一个数据没有人的属性的时候意义小

以前为什么要记录线下的交易数据呢?因为他想比较,比如说我是联华,同一个地区我卖的是不是卖少了,他买了一个饼干,这种类别的饼干卖得好不好?你是这种类别的饼干卖得好不好?他们会对一下,这是纯粹交易的情况会对一下,但是很难关联上这个人。

我们走访一些线下的企业,有些企业居然把自己三年前会员数据丢失掉了,我说三年前的数据能不能拿出来看看,他说没有了,因为没有用。识别一个社会学的数据极其重要,否则下面很多数据根本关联不到这个身上。

在大数据里面,近一年开始有很多人提出来,数据是有生命周期的。如果三年前的数据肯定不如6个月之前的数据重要,如果我想知道你购买的行为的话,因为有可能三年你的购买行为都变了,可能近6个月比较能知道你的行为,三年前的你的购买数据可能是没有这么有效。

所以一个企业可能要做一个决策,可能八年前数据是不是不要啊?是不是这样一直有价值吗?所以有一个词是非常重要的,数据随着时间的推移慢慢价值减低。

我以前曾经表达一个观点是,数据出来的结果很好,就是能帮我们提升多少的百分比,但是有时候你会发现他不稳定也没有用的。今天能给你这个效果,明天就不能给你,你的供应货来源的原料不稳定。所以数据来源也是一样的,今天来的数据挺稳定的,明天来的数据不稳定的,这样的数据还是不能用的,在我们放在非常重要的数据是不能用的,比如说你决定借钱给一个人,可能明天数据不稳定,产生出来的伤害更大。

端到云、云到端整个数据是流动的

从我个人的理解来讲,云有两个很大的功能,一个是他的计算能力,一个是他的储存能力。端是终端,手机、PC,将来如果是穿戴,所有都是端。从云到端这个地方来讲呢,能不能利用云的计算能力与他的储存能力,快速来计算东西给到端去用,我认为他是非常考验这个云上的计算能力跟储存能力的。

如果我们做了一个数据模型,数据模型是说,我能猜到一个人在他现在这个行为里面,有人用了他的手机,但是用这个手机的人并不是他的。在这种情况下,能不能停止他的手机使用?

就是,实时能从计算上知道,现在用手机的你并不是你,并不是平常的你。这个能力如果在端上使用的话,云那边肯定要非常快速的计算,所以他的计算能力非常重要。

因为端那边已经收集了一些数据,他现在可能人在美国,但是三分钟之前用这个终端的时候其实还在中国,为什么?一个人怎么样可以在这边一个小时之后飞到美国呢?如果这个是支付系统知道了这个事情的话,云就通知端要停止到这个手机。

但是端到云的时候,他是收集及时的数据给到云那边,让云那边能够存储关于判断刚才这件事情的能力。所以端到云、云到端整个数据是流动的。端的能力在于收集,云的能力在于计算存储,这两者之间是出现数据的流动的。仅仅从数据的角度去看,都是用我刚才的那个方法来讲。端来讲是知道当时当下发生了什么事情,把他传到云上,云把他存储而且计算,计算当时那个地方到底有什么东西不动的,然后再传到端上整个东西进行一种循环。

运营商的数据量巨大但做得不好

对于大数据,我觉得垄断是很难的。中国来讲,数据量最大的并不是阿里,有一些公司数据的量也很大的,比如运营商。所以只是说,有两种东西要看的,一个是计算数据的能力,管理数据的能力,这个其实数据量大到某个量之后,后面的两者更重要。就是让你盘点一下你今天的数据的时候你就发现难了。管理一种数据的能力,计算一种数据的能力,收集数据的能力,这三者是要平均的,不是仅仅说用多少大的数据的,管理数据变得越来越重要。

大数据安全不是靠监管

大数据数据量很大,很难仅仅只是用一个监管的方法来决定这个数据是不是敏感,而是应该用一个更好的方法去处理。

讲一个例子,数据安全中最安全的方法就是不给你看,给你看过理论上安全就会有出现风险的可能性了。我们现在的技术能够做到的是不给你看,但是可以给你用。

其中的一些安全策略是这样的,比如说我现在说要调动一些人的名字,这个名字里面有“车品”就两个字,但是我不会给你看所有的人的名字里面有“车品”两个字,但是告诉你答案就是3个。也就是说,我不会给你看到数据,我只给你用这个结果。

关于因果和相关的关系

数据挖掘有两种方式:一种是我们知道了有因果关系,我们用数据来界别这个因果关系以后形成了一个模型,利用这个模型让我们去做一个决策更快,比如说有一个人网上来了一个用户看了这样的商品之后,这个商品以前曾经他看过的,所以今天客户过来是要买这个东西,但是还没有办法下决心,你要不要给他一个红包去刺激他去买,这个是有因果关系的,这样的因果关系很容易在一个模型里面。

另外一个是,有一堆的数据,但是不知道有没有因果关系,但是用数据去处理的时候,发现面有一些现象很有关联性,虽然不能解释但是我可以用。

所以,在做应用数据的时候,有时候我们可以不管因果关系,找出他上一个行为是什么就可以了,不一定找出下一个行为,我们不一定要推送最好的给他的,有时候是给他下一个需要的就可以了。我们不会去求绝对的因果,有些因果不是说要追求于绝对的。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2014-03-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

私有云的未来将是什么样的?

如今,人们已经接受混合云是大多数企业基础设施的未来这一事实。经过反复研究证实,云计算是企业基础设施的主要组成部分。换句话说,企业期望他们的混合云架构不是在公共云...

28370
来自专栏大葡萄元元

(二)市场+运营+商务需要积累什么?

   上次说到渠道商务的局限性,权限有限可运作的范围也有限,但对于渠道不能光是坐等资源上门,对于有潜力的APP产品应该懂得挖掘......接触越来越多的开发者以...

8910
来自专栏PPV课数据科学社区

【热点】大数据应用于企业运营-傅志华

大数据在企业运营的不同层次有着不同的作用,也对应了不同的应用方法论。本文抽象出大数据应用于企业运营的不同层次以及相应的应用方法——大数据企业运营应用金字塔模型。...

37140
来自专栏达观数据

达观数据CEO陈运文:如何运用大数据做好精细化营销

达观数据CEO陈运文被特邀为拓扑秀第五期(拓扑社旗下的线上活动)采访嘉宾,以下正文为线上分享实录,由拓扑社编辑后报道。 【陈运文简介】陈运文,博士,达观数据CE...

40590
来自专栏人工智能的秘密

知识图谱技术已发展得相对成熟,未来的探索方向在哪

前段时间被沙特阿拉伯授予公民身份的人形机器人“索菲亚”,再一次颠覆了人们对人工智能技术的认知。“索菲亚”多次与人类交锋并公开发表言论的过程中,我们感受到了基本的...

61360
来自专栏灯塔大数据

回顾2016年大数据发展,盘点十大热门数据岗位

随着很多大公司对数据分析需求增多,数据相关岗位的人才需求量也越来越大。 数据学作为一门学科,已经受到时代的追捧。数据学,或者更准确来说,大数据,在2000年早...

38860
来自专栏云计算D1net

巨人之地:构建超大规模云计算设施

如今,全球数字基础设施的建设是一项独特的协作活动,各国政府、研究机构和企业都在创建数据中心、电缆、基站、卫星、传感器的巨大网络中发挥作用。但是有一些行业厂商做出...

13000
来自专栏知晓程序

微信用户对什么最感兴趣?这款官方小程序告诉你 | MINA 奖 #17

然而,用户心,海底针。做了大量的用户调查,回收的问卷可能有一半是「谎话」;而大家最近追逐什么,讨厌什么,兴趣转移有时又比翻书还要快……

8110
来自专栏AI科技大本营的专栏

AI 行业实践精选:五条建议让你的 Chatbot 出人头地

Chatbots 是客户服务的新阵地——它不仅减少了人类代理所带来的影响,还帮助企业在运营过程中节省了大量的资金。 然而,Chatbots 带来的体验迄今未能...

386100
来自专栏架构师之路

架构师到底该不该写代码

周末InfoQ-StuQ直播,主持和听众提问的简版实录,快消时代,精简到1分钟可以读完(原文有10000字)。 提问:沈老师是从什么时候开始写文章的? 我从大学...

37880

扫码关注云+社区

领取腾讯云代金券