技术红颜告诉你大数据分析的真谛:别只盯着我的钱!

作者:于雪

来源:51CTO.com

导读

大数据时代已经到来,每个企业都开始忙着数据挖掘,忙着数据分析,忙着构建各种算法模型。但为什么你无法引发“技术红颜”式的蝴蝶效应?为什么你眼中对用户的“精准推荐”,成了Ta备感厌烦的“精准骚扰”?

很多人都知道, iPhone3是iPhone撬动中国市场的核心。彼时的iPhone市场占有率还不足1%,而今天,中国手机市场似乎再没有谁能撼动苹果的地位。来自两个群体的强大力量推动了这种格局的形成,一是我们熟知的“年轻果粉”,另外一个更加重要的群体被称为“技术红颜”,iPhone的演进潮流与这个群体有极其密切的关系。

技术红颜引发的iPhone旋风---

“技术红颜”是谁?从2009年开始,北京大学新媒体研究院副院长刘德寰与他的同事们开始了一项主题为“手机人”的研究。在定性研究的过程中,他们发现了一个极为特殊的小群体,这个群体小到往往不被注意。她们只占全部人口数量的0.67%,由年龄在35岁到45岁的职业女性组成。她们普遍学历高、收入高、职位高,喜欢追逐时尚潮流,怕落伍,买技术最全面最先进的手机,但却只使用其中10%的功能。这个群体被刘德寰等人称为“技术红颜”。

“技术红颜”带动了潮流的变化,引发苹果旋风,其影响力远远超过“年轻果粉”。因为她们将偏中年、偏成熟的女性引入时尚大潮当中,并形成了更大的族群,一种全新的经济模式被带动——“熟女经济”。无论是微博整移动化的发展,移动内容的付费、网购, 都不乏技术红颜的“兴风作浪”。

大数据时代已经到来,每个企业都开始忙着挖掘数据,忙着分析数据,忙着构建各种算法模型。但为什么你无法引发技术红颜式的蝴蝶效应?为什么你眼中对用户的“精准推荐”,成了Ta备感厌烦的“精准骚扰”?

之前在友盟主办的“全域大数据峰会”上,刘德寰院长一语中的:“你没有盯着我的人,你只是盯着我兜里的钱,我兜里又没多少钱你还紧着盯,我不烦你烦谁。”

我们的用户推荐到底在哪儿出现了问题?

推荐算法困境---

  • 标签推荐的困境 目前最常见的推荐机制为“相似邻居推荐”,这是一种基于纯行为的标签推荐:当进行海量数据的收集和分析后,如果发现行为A、行为B总体共现次数多,系统就会向有行为A的人推荐B。比如在网购时,如果你的朋友喜欢,那么系统就会认为你也喜欢,就会把朋友买过的衣服推荐给你。 但其实,我们在日常生活中最讨厌的事情之一就是——撞衫!!
  • 关系推荐的困境 再以微博推荐机制为例,其逻辑基本如下: 我与A非好友,但我的好友中有不少人与A是好友,即我和A有不少共同的好友,好么系统便会A也推荐给我(共同好友);我关注的人中有不少关注了B,那么系统推测我也可能会喜欢B,从而变会把B也推荐给我(间接关注人)。 但大多数时候,我们可能会这样觉得,“这位和我有毛关系?”
  • 行为赋值的困境 再说说音乐分类分类,大家常常会进行这样的行为赋值: “单曲循环=5,分享=4,收藏=3,主动播放=2,听完=1,跳过=-2,拉黑=-5” 这些分值分别代表什么意思?对行为量化到什么程度?你又真的清楚这些行为的原因吗?如果简单的认为将某个行为变成数值后就可以着手分析的话,面临的真正难题不是计算,而是如何明确地判断这些行为,并进行用户匹配。行为的背后到底是什么,需要精细的考量。 我们都知道这些机制有问题,那最好的解决办法是什么?——从用户真正关注的内容入手。应该通过增加对用户内容的搜索,寻找到用户与用户之间共同的兴趣、偏好和价值。比如分析用户在微博中发表、转发的内容,找到不同用户共同的关注点、兴趣点、价值观、生活方式,这才是真正有价值的实现路径。

看到这里,一定不乏愤世小青年发出咆哮:

你的系统能实时全盘扫描海量用户的海量微博内容?知道这得多少台机器吗?千万台! “U can U up. No can No BB! ”

所以,我们只能退而求其次,选择这些看起来逻辑很清楚,实际上效率要弱得多的算法机制。但这背后的问题是,我们现在利用的数据绝大部分是稀疏的,算法经常停止于局部最优,结果极其不稳定,并存在大量的过度拟合,经常把噪音当成信号。最重要的是算法的构建绝对不是基于人性,而是基于商业。

真的没办法了吗?其实,无论是大数据还是小数据,运算的原则都是一致的。让我们来看看那些真正有效的运算原则。

有效运算的七大原则---

稳定性原则:运算精准的前提是稳定。面对不稳定的用户、不稳定的行为,不稳定的情感等干扰,必须要找到行之有效的办法去解决。

人性原则:人与物品的区别是人是有情感的,人有态度、人情绪、有对情境的考量、有动机……人的所有行为随着环境的变化瞬息万变。人性的不稳定,怎么能在大数据的运算当中呈现出来,这是一个问题。

数据全面性原则:数据全面是有效分析的基础,数据缺失多错误率一定高。现在数据分析当中面临最常见的问题是低价值数据稠密,高价值数据稀疏。我们的对象是人,定要基于人的逻辑考虑,产生人可以认识的分析结果。数据的维度应该基于人能力所及的范围,而非机器。

分类原则:做过调查的人都知道,做抽样的时候永远应该先分层。在分析用户之前,我们也一定要先分群。个体永远是复杂的,复杂性对复杂现象只能添乱。所以不要把人回归到个体的维度,而是放在群体里讨论。这是一个降维的过程,也降低了问题的复杂性。

变量多元指向原则:不要以为变量都只有一种展现方式,所以不要拿比例表做所谓用户画像。一个变量就是一个含义。以“代沟”为例,它的形成可能关乎年龄、学历、家庭生命周期、社会现象等等,一个变量是可以对应N个维度的。

变量复杂性原则:变量的呈现并不是简单的、分离的现象,而是混后、叠加、再分类后的行为组合。这非常类似于深度学习的层级。

效率原则:效率一定是和人的行为匹配的。如果在没有进行准确匹配的前提下进行推送,人们只会将大量的推送服务视为骚扰。

理论有了,实现路径在哪里?刘德寰提出两个假说。

有效大数据运算的两大路径假说---

假说一:基于人,寻找“常人”和“常模”

数据运算的本质是找寻常人”稳定的人“,分析的本质是建构”常模“,常模建立之后才能对象于个人。

任何一个人的行为都没有规律,但是人的生活行为方式是都极其规律的。因此在进行数据运算时,对生活方式的探究价值要远远大于对行为打标签。生活方式对应的就是“常人”。

人的态度、行为、情绪、场景都是不同的,似乎找不到规律可言。但人是生活在群体当中的,群的行为是用户特征的综合,代表的是一种稳定的生活方式与态度,是可以感知和评判的,其变化是也有规律可循的。正确的做法是对某一个群体的行为分析来建立常模,要注意的是,这不同于数据挖掘算法中的”分类‘。这种分析这不是行为的叠加,是一种生活方式的展现, 一个人可以从属N个群。文章开头提到的“技术红颜”就是典型的例子。

假说二:基于物,寻找N维空间与人的认识能力

这个假说的前提是每个非人的事物都有一个确定的N维空间,而且N可以从人的认识能力角度定义。每一个不同的物品,N维空间不一定一样,但都是相似的,体现的只是数量的变化。

TESCO的运算逻辑是抽样实验+分析+大数据推送,随时实验,购物篮组合,它把每一个产品都用20个维度打标签,收集了海量的顾客数据,通过对每位顾客海量数据的分析,对每位顾客的使用程度和相关风险都有一个极为准确的评估。推荐这件事情就变得简单多了。

其实,运算当中可以融入社科的所有思想,现有很多程序员只关注自己的领域,对其它的行业一点不了解,您说说,做出的分析能靠谱吗?

大数据运算的逻辑本身是要反推人性。因此数据科学要将社会学、经济学、法学、政治学、传播学等所有学科已有的知识,稳定到计算当中。相信那种运算规则不仅效率高,而且简单。

END

版权声明: 转载文章均来自公开网络,仅供学习使用,不会用于任何商业用途,如果出处有误或侵犯到原作者权益,请与我们联系删除或授权事宜,联系邮箱:holly0801@163.com。转载大数据公众号文章请注明原文链接和作者,否则产生的任何版权纠纷与大数据无关。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2016-06-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【直播】谷歌大脑团队在线答疑,Hinton 压缩神经网络进展

【新智元导读】谷歌大脑团队Reddit在线答疑,网友热情参与。海量信息中,新智元为你梳理出逻辑——谷歌大脑成员看好的深度学习在哪里?他们如何与时俱进,学习深度学...

3415
来自专栏数据科学与人工智能

算法与算法工程师,技术与技术人员

在和刘同学长谈之后,我再次对前一段时间的想法进行了反思,结合聊天中的新感受,整理在这里。 (注:标题里的算法,指机器学习算法,或者说“算法工程师”这个职位名称里...

3097
来自专栏PPV课数据科学社区

【译文】传播学中的大数据:发展与不足

? 作者:Malcolm R. Parks 当我决定为《传播学日报》写一个特别的关于大数据的主题时,我心中有两个目标。一个是为大众传播,图像技术,政治交流,健...

3648
来自专栏AI科技评论

清华大学黄民烈博士:如何让聊天机器人理解人类情感?

AI 科技评论按:以微软小冰为代表的聊天机器人已经渗透到我们的日常生活中,虽然小冰会卖萌懂幽默,但距离真正的共情、理解人类的情绪还是有一定的距离。清华大学计算机...

3919
来自专栏PPV课数据科学社区

【译】如何真正学习数据科学

对于数据科学领域来说,现在是一个令人振奋的时期。它是新兴的研究领域,但是却在飞速的发展。如今数据科学领域需要大量的数据科学家,而他们在硅谷年人均收入则超过10万...

3007
来自专栏机器人网

这是AI最好的时代……

8月份有幸收到雷锋网的邀请参加CCF-GAIR大会,金光闪闪的嘉宾团体和高大上的会议盛况自不必说。作为一个一直从事nlp技术和相关产品的工程师,这里写点个人的想...

2989
来自专栏量子位

姚期智院士亲自讲授,一文读懂量子计算

但如果你对量子计算深怀兴趣,或者对量子计算的前世今生、未来前景等充满好奇,这可能是最深入浅出的授受文章。

1082
来自专栏大数据文摘

对大脑的逆向工程是不是走向强AI的唯一出路?

1828
来自专栏大数据挖掘DT机器学习

为什么“高大上”的算法工程师变成了数据民工?

算法与算法工程师 在知乎里回答“做算法工程师是一种怎样的体验?”的答案(其中的思想并非原创,而是山寨自新加坡某大学一门Quantitative Investme...

8759
来自专栏数据科学与人工智能

【数据挖掘】系统地学习数据挖掘

问题:如何系统地学习数据挖掘? 虽然是本科毕业,但是在看数据挖掘方面的算法理论时经常感觉一些公式的推导过程如天书一般,例如看svm的数学证明,EM算法..,感觉...

2625

扫码关注云+社区

领取腾讯云代金券