前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >大数据变现十日谈之十:示例与计算

大数据变现十日谈之十:示例与计算

作者头像
刀刀老高
发布2018-04-10 18:08:00
4680
发布2018-04-10 18:08:00
举报
文章被收录于专栏:奇点大数据奇点大数据

在前几天我们的大数据变现讨论中有一个问题我们没说完,就是关于“使用价值”的问题。我认为这应该是一个数据中蕴含信息所发挥价值的度量问题。

在平时我们的生产生活中,我们的行为实际是已经计入了先验概率的。而使用数据中的信息这种行为,实际是在享受其信息量获得的增益。我们在平时的生产生活中,即便没有购买任何数据的情况下,也会根据我们当前具有的认知、经验、推理、猜测,所有我们能用的手段都用上来进行其他辅助性的手段来消灭不确定性。这个时候必然不是像无头苍蝇一样盲目去试,穷举地去试,在前面我们说的骚扰电话的例子里就是一个电话号码不落的挨个打过去。而根据很多辅助性的信息或者其他的数据信息已经能够在我们购买或阅读一片数据之前拥有了一定的消除不确定性的能力,这个其实就是先验概率发挥的作用。而在我们购买或阅读了数据之后,进一步消除了不确定性,这其实是一个和概率有关的事情,我们很容易联想到信息量或熵的概念。

(i=1,2,..n)

我们在计算使用价值的时候可以考虑用这种公式:

(i=1,2,..n)

其中m是信源数量。

在m个信源是等概率的情况下,的最大值为1,也就是100%。可以认为这种情况下数据的使用发挥了巨大的价值;前面同样我们也计算过熵在先验概率分布极不平衡的时候是比较小的。信息熵在这种情况下取值为0~1之间。

那我们不妨把数据使用价值定义为:

使用价值=(作用价值-交换价值)×信息熵

定性分析的角度来看的话,作用价值越大,交换价值越小,那么数据使用价值就越大;而在信息熵越大的情况下,这个数据的使用价值越不打折扣,反之数据的使用价值就比较小。如果作用价值和交换价值很贴近的时候,那数据使用价值的空间就非常有限了,这种时候即便信息熵是1(最大值),这种数据发挥的作用也就越小,因为跟我穷举试错的成本快差不多了。

我们试着把刚刚具体的例子吧。

张三准备在一个城市开个小卖店,但是卖什么没拿准。他在多方了解下,想了4种方案。

方案1:在A街区B店面开一个煎饼店。

方案2:在C街区D店面开一个茶餐厅。

方案3:在C街区D店面开一个便利店。

方案4:开一个专营咖啡机和咖啡豆的网店。

这4种方案看起来几乎差不多好,如果自己要去各个街区进行调查包括网络调查人流量、客户性别比例、年龄比例、日均消费等数据,一个人花费的人工成本、交通、饮食都加在一起需要40000元。而有专业的公司拥有大数据咨询报告系统,可以提供完备的信息,而购买这种报告仅需5000元一份。那么张三完全可以花5000元来购买这份报告,这个5000元就是交换价值,40000元就是作用价值。这4个方案如果没有明显的彼此之间的差异,张三原本选择每个方案的概率都是,那么按照前面的说法来计算,信息熵就是:

数据的使用价值就是:(40000-5000)×1=35000元。

再来说一个例子。

假如有这么一个场景,某公司制定第二年的产品策略和销售计划,随后几个主管提出了3种不同的方案。而且3种方案听起来都比较有道理但是缺乏足够的数据依据,经过大家充分讨论,权衡利弊,在决策层的领导内进行了支持表决。同意选择方案1的有70%的人,同意选择方案2的有20%的人,同意选择方案3的有10%的人。我们可以粗略理解:其中有70%的可能会选择方案1,20%的可能会选择方案2,10%的可能会选择方案3。这时候需要数据对决策做出支持。假设自己进行调查研究需要花费的总成本为100万,从拥有大数据咨询报告系统的公司购买了相应的数据,花费20万,做出了最终决策,选择了方案3。最终公司第二年销售收益为1000万。

在这个例子里面,20万为交换价值,作用价值应该是100万,场景价值是80万,数据的价值应该边界划在消除信息不确定的成本上,而不是间接收益。另外可能比较有争议的地方是在选择了支持度最低的方案3上,表面上看上去,数据的购入支持了最不可能胜出的方案3,所以这次胜出很大程度应该归功于这一片数据的价值,应该用这个1000万做基数来进行衡量。我的看法是,这是对数据价值的夸大,也是不客观的一种表现。因为这1000万真的不是因为我花了20万就直接得到的,而实际的过程是,仅仅花了20万,完成了一个100万的成本才能做的事情,在决策后进而通过一系列其他的努力和配合,最终达成了1000万的价值。边界的划分很重要。或许还有一个疑问,就是3种方案中,数据的帮助使得这个10%支持度的方案胜出,而非最大支持度的70%的方案胜出,所以有两种情况可能会被认为是不同的,那就是用户选择了70%支持度的方案1和10%支持度的方案3,这两种情况下数据的使用价值肯定是不一样的。相信会有人有这样的思考。但是我们想一下,决策实际上是在了解了信息之后做出的,换句话说如果我真的花了100万的人工成本去做了这次同质的分析,应该会得到跟购买这次数据得到的结果是一样的,买数据花了20万。这里数据的价值只是两种获得途径的比较,也就是大数据市场边界的划分。

最后我们试着把事情做到极致——试试算一下在刚才的骚扰电话的例子里,从10000条中锁定100条数据,带来的交换价值有多大呢?这个场景很特殊,因为打这10000通电话本身就是一个消除不确定性的过程,等于是消除不确定性和生产融为一体的,在这种情况下,数据的场景价值和作用价值几乎快等价了。

假设平均一次通话时间需要3分钟,包括接听、通话、挂机,包括成交和被骂的不同场景。那么一小时可以通话20通,一天8小时通话160通。10000通电话需要一个人62.5个工作日才能完成,大约3个人1个月的时间。假设话务员的人工成本为4000元一个月,那就需要12000元的成本,这个就是作用价值。我试着在网上找了一条报道来试着给数据定个售价吧,“【信用卡客户信息遭泄:网购价2分一条 金卡持卡人信息可售5元】多位“信息贩子”均表示,根据个人信息“品质”的不同,价格也分为“三六九等”,最新信用卡开户数据按照0.5元一条出售;二手数据,可以便宜到0.35元每条;部分高端客户如金卡、白金卡持卡人信息每条售价则高达5元。”(资料来源《每日经济新闻》),我们还是假设1条0.5元吧,在花费了50元购买了100条电话记录后,仅需要1个0.6天,也就是大约190元的成本,就能完成原来12000元成本才能做完的事情。由于这种场景下的作用价值巨大,使用价值和场景价值都巨大,所以在这个场景下数据交易才会大行其道,屡禁不止——真是用了那句话“赔钱的买卖没人做,杀头的买卖有人做”。

至此,我们本次大数据十日谈系列的讨论就告一段落了。在这十天的讨论中,大部分内容来自于即将上市出版的《白话大数据与机器学习》一书,敬请关注。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-05-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 奇点 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档