前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >浅谈大数据应用研究的3个V

浅谈大数据应用研究的3个V

作者头像
腾讯大数据
发布2018-01-26 18:18:07
1.1K0
发布2018-01-26 18:18:07
举报
文章被收录于专栏:腾讯大数据的专栏

To knowledge是目标,手段还是mining,俗称数据民工。每当大家讲到大数据,都会不约而同的提到大数据几个V的定义:Volume,Variety,Velocity,Veracity,Value。大部分情况下我们都是将这几个V放在PPT的introduction部分一笔带过,并无详细解读。我想谨以此文抛砖引玉,回顾和学习其中的3个V,重新审视我们的工作。

前言

当我们面对一个数据驱动型的应用时,我们首先需要明确应用目标,确定我们需要做的事情属于什么层面,然后对问题建模,并制定方案。数据类型的应用目标,我想可以归纳这4类:数据描述了什么,内在组成是什么样?数据所反映的现象,是否存在某些内在规律?通过数据反馈的现象,能否学习规律并进行预测?在我们已知的结果方案之外,是否能借助数据去分析和进一步改进方案?

绝大部分时候我们停留在Information和Intelligence层面,也就是我们常用的统计分析,关联挖掘,聚类分析,分类(回归)预测等。但是这些问题似乎是很经典的问题,在当前猪都吹上天的大数据时代,有哪些不一样呢?我想如果我们只停留在Volume变得超级大,我们需要用hadoop之类的就有点图森破了,大数据时代我们采集信息的来源和类型更加广泛,每个行为也能关联到更多的上下文信息,甚至有些事情算法不需要大改,增加数据量就能取得更好的效果,我们重点展开Variety,Veracity,Velocity,这3个V来讨论一下。

Variety在开发数据驱动型应用时,我们一般对variety的理解更多的是多来源、多类型的数据,然后在应用中进行数据融合,开发更完善的业务模型。比如百度2012年的百万美元大奖[5],网盟数据和搜索数据打通,提升系统收益。而我们熟知的广告点击率预估,或者推荐系统中常说的用户画像[6],还有特征工程中的context feature和item feature,属于典型的不同类型数据融合。

大部分情况下,我们对variety的理解和使用,需要有一个实体能将不同数据串联起来,比如搜索可以以一个用户的session,把不同query串联起来;一个公司可以以唯一用户ID把不同产品数据串联起来;甚至外部数据融合也需要以身份证之类的把相关信息串联打通。俞士纶老师给出了一些不一样的理解,窃以为这是业务之外我们经常忽略的的,但是确实是大数据时代才具有的variety属性。

挖掘实体相关,但是不同来源的信息

最典型的是我们在做大规模的非线性文本分类时,并不完全按传统的文本分类的思路,从切词信息中去发现有限的信息做分类器,而是结合相关实体,比如说这句话的人,某篇文章的发布者,去引入更多领域知识和先验提高分类精度。比如Twitter要对只有140个字符的tweets进行大规模高精度的分类[7],就大量使用了twitter账号的,还有URL的领域信息作为先验。我们进行公众号文章分类所使用的paragraph to vector特征[8],其实也是公众号领域知识的数字表达。

从原理上讲,各种分类(回归)预测任务不限特征来源,但是上述这种不同来源领域知识的迁移,放在大数据的背景下,会更加有意义。不仅仅是我们可以融合的数据来源和类型变多了,更重要的一点是其他来源的数据可能更容易抽取到信息,对比之前缺少信息的情况下,开发难度变低了。

不同实体的不同类型信息,但是可以通过复杂网络相关联的

这种类型的典型场景是不同社交网络的多源融合问题,用户的信息可以在不同网络之间进行迁移(transfer),国内像清华大学的唐杰老师,崔鹏老师,做过不少这部分的研究。

variety对信息迁移的理解,在算法研究层面是不是还能有不一样的解读呢?个人意见,机器学习方法虽然不限特征来源,且能进行简单的非线性交叉,但是deep learning对各种特征做的更高层的embbeding和抽象,这种更高层特征的融合将variety在模型层面又提升了一个台阶,而deep learning的使用离不开大数据,没有超大数据根本无法训练大规模的深层网络。

Veracity有些文献将veracity归结为uncertain data,窃以为不是特别准确。大数据有一些绕不过去的问题,比如高噪声,再比如一些异常信息淹没在可信数据的汪洋大海中,使得我们进行检测的难度变得极其大。但是长尾信息可能也淹没在这些海量的数据中,我们不需要惧怕这些问题,因为非纯净数据中同样蕴含着信息,只不过我们需要更加精细化的去深耕细作,甚至引入更大的数据和参数规模来刻画这些信息,相对于纯净数据甚至能取得更好的效果。

对此,俞老师也给出了一个角度的思考:发动群体智慧来进行抗噪或者异常检测。

对应此问题,我们也做了一些有意思的工作。比如朋友圈广告的评论数据,我们可以对这些评论进行情感倾向的量化,从而在点赞和点不喜欢之外,提供另外一个维度的用户反馈。但是我们也知道排除发小广告的,绝大部分评论都是非常短的文本内容。有些甚至是看似噪声的内容,比如小鲜肉最喜欢说的“这是什么鬼”。我们如何去发现这些数据中蕴含的信息呢?

我经常跟学术界小鲜肉说的是:你们搞高级算法,我们则利用社交网络的大数据优势(阴险的笑)。上面的问题简单描述一下思路:通过表情采样(要防止表情的term过拟合),得到一些朋友圈UGC内容的情感倾向的label,然后对这些文本内容通过word embbeding和卷积神经网络来引入上下文信息来学习语义情感倾向。而海量且每日更新的UGC内容,可以关联到大量的相关数据所蕴含的信息,比如“这是什么鬼”,从社交大数据出发,走群众路线解决上述问题。

VelocityVelocity,直观翻译是高速,很多文献对应的应用场景直观的就是streaming data。但是我认为可以引申出更多种理解:数据的高速流转,我们想要的结论可以及时反馈;内部特质变化,能快速的反应在数据分布和特征上;当需要了解收集数据时,可以快速的获取最新鲜的数据,等等等。回到大数据的应用研究中,聚焦到业务目标最终体现的是模型的快速更新能力,快速捕捉训练数据中反映的变化。

比如当目标是广告CTR预估这样的应用点时,velocity涉及到许多技术环节,诸如日志快速收集反馈,日志实时Log Join,流式计算等等。最终体现在CTR模型实时更新这一项技术上。KM也有相关业务介绍过快速模型更新带来的CTR效果提升相关工作[11]。

参考文献

[1] JIAWEI HAN, From Data to Knowledge: Construction and Exploration of Heterogeneous Information Networks

[2] 芮勇, From Big Data to Knowledge Discovery

[3] PHILIP S. YU, Challenges and Opportunities on Mining Big Data

[4] https://en.wikipedia.org/wiki/Big_data

[5] http://wangmeng.baidu.com/news/2012-08-10/1347281356.html

[6] http://km.oa.com/group/18268/articles/show/218391

[7] Shuang-Hong Yang,etc. ,Large-scale high-precision topic modeling on twitter

[8] http://km.oa.com/group/propen/articles/show/231733

[9] Kevin Murphy,《Machine Learning: A Probabilistic Perspective》

[10] http://km.oa.com/group/14352/articles/show/213192

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2015-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 腾讯大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档