北京大学新媒体研究院教授刘德寰:未来数据分析是分析人

<数据猿导读>

北京大学社会学博士、北京大学新媒体研究院教授刘德寰在“无数据不智能”的主论坛上,围绕“有效大数据运算的两个路径假说及意义”进行演讲。他直言:目前很多的标签推荐都是伪推荐,未来数据分析应该首先完善人的纬度,未来的数据分析就是分析人

数据猿报道,2016年4月20日,2016 UBDC全域大数据峰会在京召开。本次峰会是由行业协会、互联网领军企业、知名品牌商联合打造的国内首个全域大数据行业峰会。共同探讨跨国界、跨终端、跨领域的全域大数据最具前瞻性和代表性的话题。

北京大学社会学博士、北京大学新媒体研究院教授刘德寰在“无数据不智能”的主论坛上提出了有效大数据运算的两个路径假说:第一个路径,未来数据分析就是分析人,完善人的纬度。第二个路径,对物的纬度探测,基于人的认知习惯。

他进一步介绍这两个假设:每个非人的事物都由一个确定的N维空间,而且N可以从人的认识能力角度定义。他特别以tesco作为案例,这家企业不仅针对每一个商品都会进行20纬度的打分,同时也会根据进店顾客进行全面的分析。

本文由“135编辑器”提供技术支持

以下是数据猿现场独家直播“北京大学新媒体研究院教授刘德寰”的发言实录:

非常高兴跟大家分享,因为这个话题我考虑非常多的时间了。我今天要讲的是有效大数据运算的两个路径假说及其意义。因为现在大数据已经跟我们在一起,我们只有不读书才会谈那些,现在需要反思的是大数据的问题起源。

这个问题起源于几个方面,第一是人类行为93%是可以预测的。我讲的不好就低头看手机,我讲的好就照相,这些预测的东西有多少是我们可以做的呢?我在用另外一个科学数据来说,人和人之间的差异,DNA上的差异,原来说是0.1%,现在是0.3%,大家记住99.9%和99.7%是一致的,这个问题实际是特别本质的问题,我拿一个数据就能够算出来人的差异,个性化事实上是能够算出来,因为这是一个数列问题。看第二个现象,两个人拥有90%的相似度,但是人的行为有多少呢?按几十亿次来算,几十亿次几百万亿次的行为,当中如果有90%的相似度,会如何?

日常生活当中经常有这样的现象,两个人的对话:一个人说审美疲劳不喜欢了,原来特别喜欢,现在有点烦,另外一个人说我也是,真的有点烦人,我们的数据去推断人的时候我们考虑这些因素了吗?

再看一个,深度学习,确实名词都很炫,实际上是集体学习分了层级,层次不同而已,深度学习面临本质问题,实际上是原来主要做的集体学习太随意,我不断优化这个模型,但是深度学习一直在用于图像、视频,包括文字学习当中,有谁说过对人的学习了吗?因为那些物是不变的,只要出来了就放在那儿不变了,人是变的。所以我今天要谈四个问题。

1.推荐算法及问题

2.有效运算的原则

然后我提出两个假说。现在推荐算法当中大数据运算已经解决的问题都是比较容易的,抓取简单的运算,简单表格的运算,数据可视化这些都比较容易,只要把经典算法学过来,简单改进,现在多的不得了,改进一下应用到现实当中不难。但是难的问题是什么?效果,如何改进效果,这是一个天大的难题。

人们浏览行为那么快,我们一定要在这个基础问题上用MODElbased.我们现在习惯于打标签,而且算法绝对不是基于人性和生活的,而是基于商业化,大量的过度拟合过的。

不要把一个变量理解为一个维度,一个变量是N个维度。这个时候我们在数据运算的过程中,任何一个人的行为都是无规律的,但是人的生活方式是很有规律的,我们发现十年后看到人一点都没有变,生活方式、价值观、表现形式一点都没变,这是对于常人的建立。但是人的态度、情绪、场景都不一样,怎么可能规律呢?人是变化的,群体行为的规律是稳定的,这个分群不是一个行为的迭加,它是一种生活方式的展现。在这个当中,群是可感知,可评判的,一个人可以处于N个群体之中。

我们原来发现有一个小群体,在移动互联网里中,技术红颜,35到45岁的女性,买手机,消费当中都有技术最前面的手机,追求技术,我们这拨人引领了什么?技术红颜的是从年轻果粉中出现的。大家可以看技术红颜引发的技术旋风。接下来他演化成了巨大的趋势和族群,形成了新的潮流,这个潮流叫熟女经济之微博移动化。他也引领了网购,他同时引领了整个产业潮流的变迁,他引起了整个安卓新的崛起,背后都跟这个小族群有非常大的联系关系。

群的稳定,一是看苹果的客户一直是M型,它是稳定的,它在运算当中是可行的。所以第一个假说对象是人,第二个假说对象是物。有两个假说:每个非人的事物都有一个确定的N维空间,而且N可以从人的认识能力角度定义。每一个不同的物品,N维不一定一样,但是相似,只是一个数量的变化。TESCO把每一个产品都用20个维度打标签,这件事情有多简单呢?

我在推送的时候,新闻喜欢这个东西,这个东西在时尚上打分是39.2,同时他还喜欢这个东西,这个东西在技术产品当中打分是90分,再找一个产品,大家说这个效率要高于多少其它的事情。真正在预算当中,我自己认为这种方式可以融入社科的所有思想,所有搞计算机,编程的人,非常多的程序员整天说的话都不是人话,对其它的行业一点不了解,大家觉得这事靠谱吗?这让我想起了东方不败。

大家可以看看亚马逊,亚马逊在这方面也在进行探索,这实际是运算逻辑本身要反归人性,我们要在社会学、经济学、法学、政治学、传播学等所有学科,我们要学习他们已有的知识,把已有的知识稳定到我们的计算当中,我相信那种运算规则不仅效率高,而且简单。所以我感觉在未来的运算当中,有两个东西,就是刚才说的这两条路径。之所以是假说,是因为没有大规模实施,但是它在逻辑和实践上是有前提的。

第一个路径分析人,完善人的维度。第二个路径对物探测,他必须是基于人的认识和习惯,这两条路径不仅效率高,稳定性高,同时能带来各自分析的可能性,在未来是有望实现的。

谢谢大家!

来源:数据猿

原文发布于微信公众号 - 数据猿(datayuancn)

原文发表时间:2016-04-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

双刃剑 | 机器学习的潜力与陷阱

最近这段时间,机器学习吸引了媒体和从业者大量的关注。的确,机器学习是一种变革性的技术。但是,尽管众人对这个话题喋喋不休,尽管风投为机器学习提供了许多资金,尽管谷...

29340
来自专栏新智元

【独家】贾佳亚教授正式加盟腾讯优图,计算机视觉大师的光荣与梦想

【新智元导读】 张潼、俞栋之后,腾讯又迎来一名AI大师,计算机视觉的领军者——香港中文大学终身教授贾佳亚正式全职加入。2017年5月13日,在腾讯正式宣布贾佳亚...

43770
来自专栏新智元

【清华 AI 公开课】IJCAI理事长杨强:人工智能在企业的落地是一门大学问

17830
来自专栏云计算

云端生存思考之三:算法制胜,工程亦然

什么是云计算?云计算代表的是社会的量化管理趋势,以大数据的形式表达出来。由于宣传的原因,人人以为大数据就是统计,云计算就是Hadoop,其实我们工程领域的某些计...

21950
来自专栏数据猿

【案例】恒丰银行——基于大数据的精准营销模型应用

数据猿导读 恒丰银行探索的精准营销系统打通银行内外部数据,并利用人工智能技术,对数据进行深度挖掘,打造个性化理财推荐系统,预测客户需求和价值,实现细分客群精准触...

88150
来自专栏灯塔大数据

经验谈丨如何在一年之内成为一名数据挖掘工程师?

? ? 不管是数据分析师还是数据挖掘工程师,我们的目标都是认识数据,从数据中发现需要的信息。 ? ? 所需要的技能 ? 做数据分析,统计的知识肯定是需要的,E...

35150
来自专栏机器之心

专访 | 网易有道 CEO 周枫:需求为先的 AI 技术赋能

机器之心原创 作者:邱陆陆 机器翻译领域正经历又一次骤雨疾风般的变革。2014 年,Yoshua Bengio 组做出了第一个循环网络编码器-解码器神经机器翻译...

35880
来自专栏新智元

AI算法透明不是必须,黑箱和可解释性可简化为优化问题

来源:nytimes、wired 作者:Vijay Pande、David Weinberger 【新智元导读】由于AI算法内部的运作往往是不透明的,AI的黑箱...

38780
来自专栏镁客网

他曾让谷歌、Facebook成就传奇,现在正努力把AI推向公益化

15600
来自专栏AI研习社

从学术研究到应用落地,这 6 位计算机视觉大咖在 CV 专场上都讲了什么? | CCF-GAIR 2018

AI 研习社按:2018 全球人工智能与机器人峰会(CCF-GAIR)在深圳召开,峰会由中国计算机学会(CCF)主办,雷锋网、香港中文大学(深圳)承办,得到了宝...

13720

扫码关注云+社区

领取腾讯云代金券