专栏首页腾讯大数据的专栏浅谈大数据应用研究的3个V

浅谈大数据应用研究的3个V

To knowledge是目标,手段还是mining,俗称数据民工。每当大家讲到大数据,都会不约而同的提到大数据几个V的定义:Volume,Variety,Velocity,Veracity,Value。大部分情况下我们都是将这几个V放在PPT的introduction部分一笔带过,并无详细解读。我想谨以此文抛砖引玉,回顾和学习其中的3个V,重新审视我们的工作。

前言

当我们面对一个数据驱动型的应用时,我们首先需要明确应用目标,确定我们需要做的事情属于什么层面,然后对问题建模,并制定方案。数据类型的应用目标,我想可以归纳这4类:数据描述了什么,内在组成是什么样?数据所反映的现象,是否存在某些内在规律?通过数据反馈的现象,能否学习规律并进行预测?在我们已知的结果方案之外,是否能借助数据去分析和进一步改进方案?

绝大部分时候我们停留在Information和Intelligence层面,也就是我们常用的统计分析,关联挖掘,聚类分析,分类(回归)预测等。但是这些问题似乎是很经典的问题,在当前猪都吹上天的大数据时代,有哪些不一样呢?我想如果我们只停留在Volume变得超级大,我们需要用hadoop之类的就有点图森破了,大数据时代我们采集信息的来源和类型更加广泛,每个行为也能关联到更多的上下文信息,甚至有些事情算法不需要大改,增加数据量就能取得更好的效果,我们重点展开Variety,Veracity,Velocity,这3个V来讨论一下。

Variety在开发数据驱动型应用时,我们一般对variety的理解更多的是多来源、多类型的数据,然后在应用中进行数据融合,开发更完善的业务模型。比如百度2012年的百万美元大奖[5],网盟数据和搜索数据打通,提升系统收益。而我们熟知的广告点击率预估,或者推荐系统中常说的用户画像[6],还有特征工程中的context feature和item feature,属于典型的不同类型数据融合。

大部分情况下,我们对variety的理解和使用,需要有一个实体能将不同数据串联起来,比如搜索可以以一个用户的session,把不同query串联起来;一个公司可以以唯一用户ID把不同产品数据串联起来;甚至外部数据融合也需要以身份证之类的把相关信息串联打通。俞士纶老师给出了一些不一样的理解,窃以为这是业务之外我们经常忽略的的,但是确实是大数据时代才具有的variety属性。

挖掘实体相关,但是不同来源的信息

最典型的是我们在做大规模的非线性文本分类时,并不完全按传统的文本分类的思路,从切词信息中去发现有限的信息做分类器,而是结合相关实体,比如说这句话的人,某篇文章的发布者,去引入更多领域知识和先验提高分类精度。比如Twitter要对只有140个字符的tweets进行大规模高精度的分类[7],就大量使用了twitter账号的,还有URL的领域信息作为先验。我们进行公众号文章分类所使用的paragraph to vector特征[8],其实也是公众号领域知识的数字表达。

从原理上讲,各种分类(回归)预测任务不限特征来源,但是上述这种不同来源领域知识的迁移,放在大数据的背景下,会更加有意义。不仅仅是我们可以融合的数据来源和类型变多了,更重要的一点是其他来源的数据可能更容易抽取到信息,对比之前缺少信息的情况下,开发难度变低了。

不同实体的不同类型信息,但是可以通过复杂网络相关联的

这种类型的典型场景是不同社交网络的多源融合问题,用户的信息可以在不同网络之间进行迁移(transfer),国内像清华大学的唐杰老师,崔鹏老师,做过不少这部分的研究。

variety对信息迁移的理解,在算法研究层面是不是还能有不一样的解读呢?个人意见,机器学习方法虽然不限特征来源,且能进行简单的非线性交叉,但是deep learning对各种特征做的更高层的embbeding和抽象,这种更高层特征的融合将variety在模型层面又提升了一个台阶,而deep learning的使用离不开大数据,没有超大数据根本无法训练大规模的深层网络。

Veracity有些文献将veracity归结为uncertain data,窃以为不是特别准确。大数据有一些绕不过去的问题,比如高噪声,再比如一些异常信息淹没在可信数据的汪洋大海中,使得我们进行检测的难度变得极其大。但是长尾信息可能也淹没在这些海量的数据中,我们不需要惧怕这些问题,因为非纯净数据中同样蕴含着信息,只不过我们需要更加精细化的去深耕细作,甚至引入更大的数据和参数规模来刻画这些信息,相对于纯净数据甚至能取得更好的效果。

对此,俞老师也给出了一个角度的思考:发动群体智慧来进行抗噪或者异常检测。

对应此问题,我们也做了一些有意思的工作。比如朋友圈广告的评论数据,我们可以对这些评论进行情感倾向的量化,从而在点赞和点不喜欢之外,提供另外一个维度的用户反馈。但是我们也知道排除发小广告的,绝大部分评论都是非常短的文本内容。有些甚至是看似噪声的内容,比如小鲜肉最喜欢说的“这是什么鬼”。我们如何去发现这些数据中蕴含的信息呢?

我经常跟学术界小鲜肉说的是:你们搞高级算法,我们则利用社交网络的大数据优势(阴险的笑)。上面的问题简单描述一下思路:通过表情采样(要防止表情的term过拟合),得到一些朋友圈UGC内容的情感倾向的label,然后对这些文本内容通过word embbeding和卷积神经网络来引入上下文信息来学习语义情感倾向。而海量且每日更新的UGC内容,可以关联到大量的相关数据所蕴含的信息,比如“这是什么鬼”,从社交大数据出发,走群众路线解决上述问题。

VelocityVelocity,直观翻译是高速,很多文献对应的应用场景直观的就是streaming data。但是我认为可以引申出更多种理解:数据的高速流转,我们想要的结论可以及时反馈;内部特质变化,能快速的反应在数据分布和特征上;当需要了解收集数据时,可以快速的获取最新鲜的数据,等等等。回到大数据的应用研究中,聚焦到业务目标最终体现的是模型的快速更新能力,快速捕捉训练数据中反映的变化。

比如当目标是广告CTR预估这样的应用点时,velocity涉及到许多技术环节,诸如日志快速收集反馈,日志实时Log Join,流式计算等等。最终体现在CTR模型实时更新这一项技术上。KM也有相关业务介绍过快速模型更新带来的CTR效果提升相关工作[11]。

参考文献

[1] JIAWEI HAN, From Data to Knowledge: Construction and Exploration of Heterogeneous Information Networks

[2] 芮勇, From Big Data to Knowledge Discovery

[3] PHILIP S. YU, Challenges and Opportunities on Mining Big Data

[4] https://en.wikipedia.org/wiki/Big_data

[5] http://wangmeng.baidu.com/news/2012-08-10/1347281356.html

[6] http://km.oa.com/group/18268/articles/show/218391

[7] Shuang-Hong Yang,etc. ,Large-scale high-precision topic modeling on twitter

[8] http://km.oa.com/group/propen/articles/show/231733

[9] Kevin Murphy,《Machine Learning: A Probabilistic Perspective》

[10] http://km.oa.com/group/14352/articles/show/213192

本文分享自微信公众号 - 腾讯大数据(tencentbigdata),作者:腾讯大数据

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2015-09-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 【直播】星火计划|新一代数据湖技术沙龙火热报名中

    导语:数据湖的出现,为企业存储海量数据提供了一个高度可行的解决方案。关于数据湖,常见的定义是:数据湖是一个以原始格式存储数据的大型数据仓库或系统。 在大数据时...

    腾讯大数据
  • 面试干货!21个必知数据科学面试题和答案

    最近KDnuggets上发的“20个问题来分辨真假数据科学家”这篇文章非常热门,获得了一月的阅读量排行首位。 但是这些问题并没有提供答案,所以KDnuggets...

    腾讯大数据
  • 拿什么保护你---TDW数据安全

    互联网时代,大数据扮演着极为重要的角色;腾讯作为中国最大社交平台,具备最具权威、代表性的互联网大数据。数据平台部TDW作为公司级的海量数据存储和计算平台,集中了...

    腾讯大数据
  • 国家信息中心发布《2017中国大数据发展报告》

    数据猿导读 为帮助相关政府部门和社会各界更好地发展大数据产业,国家信息中心联合南海大数据应用研究院发布了2017《中国大数据发展报告》。该报告是业界首部完全基于...

    数据猿
  • 大数据24小时 | 云计算“老党”合作Gartner“新秀” 汇冠股份8亿元抢滩教育大数据“蓝海”

    <数据猿导读> 百度宣布投资美国ZestFinance公司 用大数据+人工智能实现精准信用评分;汇冠股份拟8.06亿元恒峰信息100%股份,抢滩教育大数据“蓝海...

    数据猿
  • 上海联通“沃+”开放数据应用大赛全网开战

    上海联通“沃+”开放数据应用大赛全网开战 首次开放50万用户脱敏数据 打造DT时代智慧应用 中国最有价值的大数据资源在哪里?答案可能是在通信运营商。三大运营商记...

    小莹莹
  • 为什么这么多人都想学大数据?宁可放弃本职工作也要转行学习

    大数据(big data,mega data),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。

    用户4151968
  • 大数据时代,什么是数据分析的灵魂

    在数据“爆炸”的时代,大数据常常被寄予厚望。到底,什么样的数据才算大数据,怎样才能用好大数据,传统统计学还有用武之地吗?

    华章科技
  • 【聚焦】CDA数据分析师简要解析《2015中国大数据交易白皮书》

    CDA数据分析师解析《2015中国大数据交易白皮书》 5月26日,2015贵阳国际大数据产业博览会暨全球大数据时代贵阳峰会开幕,由贵阳大数据交易所推出的《201...

    小莹莹
  • 数据正在催生的新经济

    相比之下,数据交易几乎无迹可寻,至少,数据与金钱的交易鲜有存在。这跟它“新兴资产类别”这一称号很不相称。在2011年发布的一份报告中,世界经济论坛(WEF;达...

    小莹莹

扫码关注云+社区

领取腾讯云代金券