大数据处理技术,特点及作用

要理解大数据这一概念,首先要从”大”入手,”大”是指数据规模,大数据一般指在10TB(1TB=1024GB)规模以上的数据量。大数据同过去的海量数据有所区别,其基本特征可以用4个V来总结(Vol-ume、Variety、Value和Veloc-ity),即体量大、多样性、价值密度低、速度快。

大数据特点

第一,数据体量巨大。从TB级别,跃升到PB级别;

第二,数据类型繁多,如前文提到的网络日志、视频、图片、地理位置信息,等等;

第三,价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有一两秒;

第四,处理速度快。1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。

大数据技术是指从各种各样类型的巨量数据中,快速获得有价值信息的技术。解决大数据问题的核心是大数据技术。目前所说的”大数据”不仅指数据本身的规模,也包括采集数据的工具、平台和数据分析系统。大数据研发目的是发展大数据技术并将其应用到相关领域,通过解决巨量数据处理问题促进其突破性发展。因此,大数据时代带来的挑战不仅体现在如何处理巨量数据从中获取有价值的信息,也体现在如何加强大数据技术研发,抢占时代发展的前沿。

大数据作用

 大数据时代到来,认同这一判断的人越来越多。那么大数据意味着什么,他到底会改变什么?仅仅从技术角度回答,已不足以解惑。大数据只是宾语,离开了人这个主语,它再大也没有意义。我们需要把大数据放在人的背景中加以透视,理解它作为时代变革力量的所以然。

  变革价值的力量

 未来十年,决定中国是不是有大智慧的核心意义标准(那个”思想者”),就是国民幸福。一体现在民生上,通过大数据让有意义的事变得澄明,看我们在人与人关系上,做得是否比以前更有意义;二体现在生态上,通过大数据让有意义的事变得澄明,看我们在天与人关系上,做得是否比以前更有意义。总之,让我们从前10年的意义混沌时代,进入未来10年意义澄明时代。

  变革经济的力量

 生产者是有价值的,消费者是价值的意义所在。有意义的才有价值,消费者不认同的,就卖不出去,就实现不了价值;只有消费者认同的,才卖得出去,才实现得了价值。大数据帮助我们从消费者这个源头识别意义,从而帮助生产者实现价值。这就是启动内需的原理。

 变革组织的力量

 随着具有语义网特征的数据基础设施和数据资源发展起来,组织的变革就越来越显得不可避免。大数据将推动网络结构产生无组织的组织力量。最先反映这种结构特点的,是各种各样去中心化的WEB2.0应用,如RSS、维基、博客等。 大数据之所以成为时代变革力量,在于它通过追随意义而获得智慧。

  大数据处理

 周涛博士表示:大数据处理数据时代理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。

  大数据处理的流程

 具体的大数据处理方法确实有很多,但是根据笔者长时间的实践,总结了一个普遍适用的大数据处理流程,并且这个流程应该能够对大家理顺大数据的处理有所帮助。整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。

大数据处理之一:采集

 大数据的采集是指利用多个数据库来接收发自客户端(Web、App或者传感器形式等)的数据,并且用户可以通过这些数据库来进行简单的查询和处理工作。比如,电商会使用传统的关系型数据库MySQL和Oracle等来存储每一笔事务数据,除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集。

  在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比如火车票售票网站和淘宝,它们并发的访问量在峰值时达到上百万,所以需要在采集端部署大量数据库才能支撑。并且如何在这些数据库之间进行负载均衡和分片的确是需要深入的思考和设计。

大数据处理之二:导入/预处理

 虽然采集端本身会有很多数据库,但是如果要对这些海量数据进行有效的分析,还是应该将这些来自前端的数据导入到一个集中的大型分布式数据库,或者分布式存储集群,并且可以在导入基础上做一些简单的清洗和预处理工作。也有一些用户会在导入时使用来自Twitter的Storm来对数据进行流式计算,来满足部分业务的实时计算需求。

 导入与预处理过程的特点和挑战主要是导入的数据量大,每秒钟的导入量经常会达到百兆,甚至千兆级别。

大数据处理之三:统计/分析

 统计与分析主要利用分布式数据库,或者分布式计算集群来对存储于其内的海量数据进行普通的分析和分类汇总等,以满足大多数常见的分析需求,在这方面,一些实时性需求会用到EMC的GreenPlum、Oracle的Exadata,以及基于MySQL的列式存储Infobright等,而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。

 统计与分析这部分的主要特点和挑战是分析涉及的数据量大,其对系统资源,特别是I/O会有极大的占用。

大数据处理之四:挖掘

 与前面统计和分析过程不同的是,数据挖掘一般没有什么预先设定好的主题,主要是在现有数据上面进行基于各种算法的计算,从而起到预测(Predict)的效果,从而实现一些高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Hadoop的Mahout等。该过程的特点和挑战主要是用于挖掘的算法很复杂,并且计算涉及的数据量和计算量都很大,常用数据挖掘算法都以单线程为主。

整个大数据处理的普遍流程至少应该满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。(Via:中国大数据)

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2015-03-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏SDNLAB

在多层网络中使用SDN提高效率和可靠性

抽象化是软件定义网络(SDN)中的一大问题,它是简化和有效屏蔽网络内部属性的复杂性以实现快速服务的有效工具。 但是对于高效、可靠和安全的网络工程操作来说,抽象化...

3406
来自专栏新智元

CPU和GPU双低效,摩尔定律之后一万倍 ——写于TPU版AlphaGo重出江湖之际

【新智元导读】本文来自计算机体系结构专家王逵。他认为,“摩尔定律结束之后,性能提升一万倍”不会是科幻,而是发生在我们眼前的事实。 2008年,《三体2:黑暗森林...

3677
来自专栏从流域到海域

物联网如何让分布式计算再次变得酷炫

原文地址:https://internetofthingsagenda.techtarget.com/blog/IoT-Agenda/How-IoT-is-ma...

2573
来自专栏数据科学与人工智能

【数据分析】大数据下的用户行为分析

1. Consumer behaviour is the study of when,why,how and where people do or don't ...

3609
来自专栏SDNLAB

2017年网工必备8大技能

网络工程师目前的平均工作职责正在随着时间的推移不断增加,网络工程师曾经是相对静态的角色,负责管理从A点到B点的传输帧和分组,现在已经发展成为负责网络,服务器和存...

37513
来自专栏吉浦迅科技

CPU发展趋势概谈

在AccelerEyes公司多年,有一件一直令我感到诧异的事情就是很多人因为错过了计算行业的趋势,从而影响对大局的认识。为了有助于大家,我会发表一些...

2515
来自专栏Forrest随想录

运维需不需要懂产品和运营呢?

继续接上文,我们制定或约定了架构标准,接下来就是架构的实施过程,架构实施应该怎么理解呢?我大致列一下过程应该就比较清晰了:

545
来自专栏腾讯技术工程官方号的专栏

TDSQL带你走进数据库顶会VLDB 2018 | 论文纵览

? 一年一届的数据库领域顶级会议VLDB 2018即将于当地时间8月27日-8月31日在巴西里约热内卢召开。 在本届大会上,腾讯公司TDSQL团队携手中国人...

10.3K5
来自专栏IT大咖说

业务高速增长,途牛旅游系统架构的优化实践

内容来源:2017 年 12 月 2 日,途牛首席架构师赵国光在“IAS2017互联网架构峰会”进行《途牛系统架构优化实践》演讲分享。IT 大咖说(微信id:i...

953
来自专栏喔家ArchiSelf

雾里看花——IIoT

工业物联网(IIoT)正在从概念逐渐变成现实。廉价传感器, 从数据到云端, 以及在浏览器上的仪表盘可以看到更细致和更现实的模型,仿若无处不在。 一些文章通过对雾...

642

扫描关注云+社区