大数据处理技术,特点及作用

要理解大数据这一概念,首先要从”大”入手,”大”是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。

大数据特点

第一,数据体量巨大。从TB级别,跃升到PB级别;

第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等;

第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;

第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的”大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。

大数据作用

 大数据时代到来,认同这一判断的人越来越多。那么大数据意味着什么,他到底会改变什么?仅仅从技术角度回答,已不足以解惑。大数据只是宾语,离开了人这个主语,它再大也没有意义。我们需要把大数据放在人的背景中加以透视,理解它作为时代变革力量的所以然。

  变革价值的力量

 未来十年,决定中国是不是有大智慧的核心意义标准(那个”思想者”),就是国民幸福。一体现在民生上,通过大数据让有意义的事变得澄明,看我们在人与人关系上,做得是否比以前更有意义;二体现在生态上,通过大数据让有意义的事变得澄明,看我们在天与人关系上,做得是否比以前更有意义。总之,让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。

  变革经济的力量

 生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。

 变革组织的力量

 随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化的WEB2.0应用,如RSS、维基、博客等。 大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。

  大数据处理

 周涛博士表示:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。

  大数据处理的流程

 具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。

大数据处理之一:采集

 大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

  在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

大数据处理之二:导入/预处理

 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

 导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

大数据处理之三:统计/分析

 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

 统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

大数据处理之四:挖掘

 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。(Via:中国大数据)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-03-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏大数据文摘

业界 | 数据可视化项目失败的六大缘由

1804
来自专栏杨熹的专栏

5.2-零库存人生

5.2 怎样过零库存人生? ? 立刻行动比只刷新认知重要 ? 衡量标准从价格转为价值 ? 现在就能用而非过去和未来 ? 时空维度断舍离 ? 适量进,每日一扔 昨...

3495
来自专栏Java学习网

如何让玩家进入流:利用移动游戏用户心理分析和保留和转换

自从2008年苹果推出了其App Store,游戏开发者已经排队了他们现在几乎500亿美元的产业。然而,设计游戏,脱颖而出的人群可以是极其困难的,现在只是尽可能...

32210
来自专栏镁客网

微软Build 2017首日总结:无处不在的云服务和AI

1162
来自专栏直播系统源码

短视频APP开发带飞你的创业梦

创业的本质就是找到风口,顺势而为,就像罗永浩说的那样,只要站在风口上,猪都能起飞。

2412
来自专栏腾讯游戏云的专栏

《堡垒之夜》畅爽体验的秘诀了解一下!

作为一款研发长达6年,强调玩法和战术的全球超热门网络游戏,《堡垒之夜》自发布1年来快速吸引了全球1.25亿玩家的喜爱。

1923
来自专栏BestSDK

VR画面再完美,也少不了这款全景语音SDK助力

时代拓灵的全景声解决方案正是从低成本、易使用切入。硬件方面,时代拓灵主打面向 B 端的全景声录制设备 Twirling720,其最大特点是一体化程度高、便携易用...

3654
来自专栏腾讯大讲堂的专栏

千万人的在线演唱会 ---大型直播平台让你转身【海量服务之道2.0】

从Twitter到Twitter pic,再到Vine, 从Facebook到Instagram,再到Instagram短视频,从微信朋友圈图片到小视频,互联网...

2515
来自专栏鹅厂网事

鹅厂如何构建大型基础网络平台

笔者用较小的篇幅来讲实现细节,而较多的内容聚焦在鹅厂在做这些工作时候的一些思路和经验,希望能给大家带来一点点参考价值。

1K5
来自专栏携程技术中心

微分享回放 | 数据分析在携程产品设计中的应用

【携程技术微分享】是携程技术中心推出的线上公开分享课程,每月1-2期,采用目前最火热的直播形式,邀请携程技术人,面向广大程序猿和技术爱好者,一起探讨最新的技术热...

3618

扫码关注云+社区

领取腾讯云代金券