大数据基本概念

大数据概念想必大家都不陌生,毕竟是近年来最热门的话题之一。在计算机以及互联网如此普及的今天,我们所有人每天都会在互联网上产生大量的数据,例如在淘宝浏览商品时会产生数据,使用社交app进行即时通讯时也会产生数据,每天股市的上涨下跌及交易量也是数据......如此可见,每天互联网上产生的数据是有多庞大,数据可谓是无处不在:

但是数据量大,只是大数据概念的特征之一,大数据有4个特征简称4V特征:

在2001年,高德纳分析员道格·莱尼在一份与其2001年的研究相关的演讲中指出,数据增长有三个方向的挑战和机遇:量(Volume),即数据多少;速(Velocity),即资料输入、输出的速度;类(Variety),即多样性。

在莱尼的理论基础上,IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包括来自互联网的网络日志、视频、图片、地理位置信息等;第三,速度(Velocity),即处理速度快,如果处理不够高速则无法应用在实时更新数据的场景上;第四,价值(Value),即追求高质量的、有价值的数据。

大数据4V特征:

  • Volume 大量,既然叫大数据,那么数据量肯定得大
  • Variety多样性,数据可以多种结构,可以是结构性数据、半结构性数据以及非结构性数据
  • Value价值,这些大量的数据需要能够被挖掘出有价值的数据,因为无价值的数据只是一堆占用存储空间的垃圾
  • Velocity高速,数据的处理速度要快,时效性强,因为很多场景下要实时更新、检测数据

想要详细了解大数据的4V特征可以参考以下文章:

http://www.mahaixiang.cn/sjfx/803.html https://www.jianshu.com/p/b3281082edb3 https://www.leiphone.com/news/201410/NgTsZw3yDjEbk9on.html


大数据要解决的问题

大数据是要用来从中挖掘有价值的数据的,如果数据不能给企业带来价值,不能给用户带来更好的体验,那么这些数据就是无用的。而从数据中挖掘价值就是大数据要解决的问题,这就好像淘金、挖矿一样,我们利用大数据技术从海量数据中挖掘有用的数据,剔除无用的数据:


大数据带来的挑战

大数据涉及到的技术:

1.数据采集: 我们需要将分散的数据都采集起来,集中在一起,才能够进行数据的分析

2.数据存储: 将大量的数据采集起来后,存储就是个问题,需要存储空间足够大

3.数据处理/分析/挖掘: 存储的问题解决后,才开始对这些数据进行处理,分析、挖掘有价值的数据出来

4.可视化: 最后就是将这些挖掘出来的数据进行可视化、图形化后呈现给别人看,总不可能让你领导来看一堆数字或字符串吧

大数据在技术架构上带来的挑战:

1.对现有数据库管理技术的挑战: 海量的数据想要存储到传统的关系型数据库是不太现实的,虽然数据库可以进行集群,但是基本上也不能处理TB级以上的数据分析的,所以现阶段无法使用结构化的查询及处理去解决这些问题

2.传统数据库技术并没有考虑数据的多类别: 关系型数据库的结构都是库 >> 表 >> 字段的关系结构,而大数据具有数据多样化的特征,所以不好存储

3.实时性的技术挑战: 数据所产生的价值会随着时间的推移而降低,所以要让数据实时展现是个问题

4.网络架构、数据中心、运维的挑战: 由于数据一直呈大幅增长的状态,而数据又要实时地呈现,这对网络传输上是一个挑战。而且数据量大,肯定得多台服务器进行存储,这就给数据中心以及运维带来一定的挑战

大数据带来的其他挑战:

1.数据隐私: 这个不用说,海量数据里肯定会包含一些用户的隐私数据,我们得保障这些数据不外泄

2.数据源复杂多样: 之前也提到过大数据的特征之一就是数据的多样性,如何处理好多样的数据是个问题


如何应对大数据带来的挑战

对于以上所说到的挑战,Google已经有应对这些挑战的技术了:

  • MapReduce 可以解决计算效率的问题
  • Big Table 可以解决读写速度的问题
  • GFS 可以解决存储容量的问题

但是,Google只发表了这些技术的论文,并没有开源这些技术,所以我们无法进行使用。不过,好在Apache基金会模仿着Google的大数据技术,开发出了Hadoop生态圈,Hadoop也是学习大数据技术必须要学的框架。

  • Hadoop里也有MapReduce
  • Hbase对应着Big Table
  • HDFS对应着GFS

如何学好大数据

1.学习一个框架,最好的方式就是查看它的官方,因为官网上的文档是最权威且最详细的。

2.通过项目实战对知识点进行巩固和融会贯通

3.参加一些社区活动:Meetup、开源社区大会、线下沙龙等,与他人交流有助于提升眼界

4.切记:多动手、多练习、贵在坚持

5.最好将英文学好,因为很多好的技术论文以及文章都是英文的,而且官网的语言也是英文的

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据仓库之Hive快速入门 - 离线&实时数仓架构

    了解了Hive中的SQL基本操作之后,我们来看看Hive是如何将SQL转换为MapReduce任务的,整个转换过程分为六个阶段:

    端碗吹水
  • MySQL-锁02

    之前我们介绍了行级锁,顾名思义行级锁就只是锁住一行或多行数据,因为针对的是行去锁的,因为一个表格内会有很多行数据,要在这些数据中去锁定其中几行数据,是比较耗费资...

    端碗吹水
  • HTML5缓存和GPS定位

    我们在访问网站的时候,会从网站服务器中下载很多数据,其中包括css文件、图片文件、js文件、音频文件等等,有时候一个页面这种零零散散的文件就要下载上百个,可以打...

    端碗吹水
  • 美团点评基于Storm的实时数据处理实践

    背景 目前美团点评已累计了丰富的线上交易与用户行为数据,为商家赋能需要我们有更强大的专业化数据加工能力,来帮助商家做出正确的决策从而提高用户体验。目前商家端产品...

    美团技术团队
  • 大数据24小时 | 美国创企LogicMonitor完成 1.3亿美元融资 ,京东金融再扩版图布局车联网大数据

    <数据猿导读> 提供数据中心监测服务的美国创企LogicMonitor完成 1.3亿美元融资;东南卫视与认知数据合作,布局影视文化大数据;京东金融再扩版图,合作...

    数据猿
  • 英国2020《国家数据战略》与世界各国对比解析

    2020年9月9日,英国数字、文化、媒体和体育部(DCMS)发布《国家数据战略》(下文简称《战略》),支持英国对数据的使用,帮助该国经济从疫情中复苏,并将在20...

    明悦数据
  • 透过数据魔镜看人看物看世界

    万物皆数,透过数据的魔镜能够帮助人类照出万物的本质,看人看物看世界。正如实现心愿的如意——如意如意快快显灵,数据的如意如今已经成为评判人和物的标尺,给人给物画像...

    机器思维研究院
  • 数据清洗 Chapter01 | 数据清洗概况

    这篇文章讲述的是数据存储方式和数据类型等基本概念、数据清洗的必要性和质量评价的关键点。希望这篇数据清洗的文章对您有所帮助!如果您有想学习的知识或建议,可以给作者...

    不温卜火
  • 数据猿专访 | 北大新媒体研究院副院长刘德寰:大数据将在公共卫生领域迎来爆发式发展

    <数据猿导读> 刘德寰教授在接受数据猿采访时说到,公共卫生跟人的生命密切关联,未来,大数据一定会在公共卫生领域有巨大的应用前景跟爆发式发展;但同时也很担忧,现在...

    数据猿
  • DàYé玩转数据战略Step By Step

    我们先看看工业革命的演进路径,从1.0的蒸汽机时代,到2.0的电力、流水线和大规模生产时代,再到3.0的计算机自动化时代,最后是4.0的智能化时代。

    曲水流觞

扫码关注云+社区

领取腾讯云代金券