前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >闲聊4年大数据经历

闲聊4年大数据经历

作者头像
木东居士
发布2018-05-25 16:13:55
7110
发布2018-05-25 16:13:55
举报

0x00 前言

周末闲来无事,想到从13年接触大数据这个名词,到现在也有4年的时间了,随便聊一聊自己和大数据接触的那些经历。

0x01 大数据

“什么是大数据?”

这个问题其实挺难回答的,因为随着技术和时代的变化,一些名词总是被赋予不同的概念,大数据也是,在居士的认知历程中,大数据的概念在某个时期有很广的含义,然后过了一段时间之后,就被划分出来了一些,然后又被划分出来一些,不知道以后还会是什么样子。

居士在这里聊一下自己对于大数据不同阶段的认识。

2013年初

2013年初,刚接触大数据的概念,当时最火的一本书是《大数据时代》,现在在京东还可以买到。居士就是从这本书入门的,那个时候自己在看各种书和文章的时候,能获取到的知识就是大数据是一个范围很广的概念,它包括数据挖掘、机器学习、大规模数据处理、数据分析、据可视化、分布式系统等一系列的内容,总之凡是和数据相关的名词都属于大数据,和数据相关的技术也都数据大数据。

身边一下子多了好多都是搞大数据的,所有的公司也都是在搞大数据的。

2014年到2015年

2013年初的时候,居士深度接触了大数据的相关技术,诸如Hadoop、Spark、Kafka,然后逐渐明白了大数据原来有数据挖掘、数据分析、大数据开发和数据可视化这一堆方向。

那个时候读研,负责大三学弟学妹们的《大数据导论》课程的助教工作,在实验室负责100左右的大数据集群,装装Hadoop、Spark,搞些数据集,布置布置大数据的实验作业,教教同学们装环境和写程序。

那个时候居士的工作中心主要放在了大数据运维和开发上,就是这份经历,基本奠定了后续工作的主旋律。

2016年初

然后到了16年初,感觉机器学习突然间火起来了,突然间大数据的概念就被割裂出去了一大部分,机器学习和数据挖掘这部分和算法强相关的内容一下子就不属于大数据这个概念了。身边很多小伙伴都开始说要转行做数据挖掘了。那个时候感觉,大数据就像是正在消退的云计算的概念一样。

在那个时候,自己对大数据的理解分为三部分:

  1. 大数据运维:集群安装和维护
  2. 大数据开发(ETL方向):数据流开发,比如数据清洗,实时数据处理
  3. 大数据开发(系统方向):数据系统开发,比如报表系统,推荐系统

2016年中

在这个阶段,居士接触了数据仓库这一概念,然后感觉对大数据的理解一下打开了不少。

先随便聊一下数据仓库,概念就不聊了,只谈一下大致的理解,数据仓库代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。比如元数据管理、维度建模、OLAP分析、ETL。

我们所谓的大数据更多的是一种数据量级的增大和工具的上的更新,因此很多的开源大数据组件可以划分到数据仓库的ETL中。

我们换一个角度理解,数据量的爆发,其实也更新了数据仓库的概念,数据仓库建模和管理数据的理论可能变化不大,但是其使用的技术,会从原来的技术架构更多地转向现有的开源体系。

2017年

2017年,工作的中心转移到了数据仓库的建设上了,这个阶段一方面加深了地数据仓库和大数据的理解,另一方面,由于处理的数据量有了几十倍上百倍的增长,因此对大数据有了更深入的认识。

以前处理的数据规模很小,一天可能只有百万级的数据入库,随便搞搞也没啥毛病,感觉大数据也就那样,搭搭集群就没什么了。

然后数据量一下暴增了,一天要处理的数据增到了百亿的级别,很多任务的数据量都超过了千亿,。下子问题就大了,遇到了很多的挑战,比如数据倾斜、数据丢失、数据读写影响这些问题。

这个阶段,居士才是真正认识到了大数据的魅力,也更深入地理解了大数据存在的意义和解决的问题。

Now

大数据!大数据!其实是离不开数据二字,但是总体来讲,自己之前对数据的认知是不太够的,更多是在关注技术的提升上。换句话讲,自己是在做技术,这些技术处理的是数据,而不能算是自己是在做数据的。大规模数据的处理是一个非常大的课题,但是这一点更偏向于是搞技术的。

我们在做大数据的时候也更应该有数据的理解,这里对数据的理解可能会和数据分析、数据挖掘有类似,但是又不同。居士认为大数据中对数据的理解,除了对数据的分布、价值等理解外,应该更多地加入对数据的组织和管理,比如数据质量的保证、元数据的管理、数据血缘的分析、数据模型的设计等等。

0xFF 总结

嗯,写了不少的东西,比较偏向于个人的理解,并不能算是正确的。 而且只是现阶段的理解,相信,随着时间的变化,自己的理解甚至是大众普遍的认知应该也会有变化。

本文参与 腾讯云自媒体分享计划,分享自作者个人站点/博客。
原始发表:2017-09-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 0x00 前言
  • 0x01 大数据
    • 2013年初
      • 2014年到2015年
        • 2016年初
          • 2016年中
            • 2017年
              • Now
              • 0xFF 总结
              相关产品与服务
              大数据
              全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
              领券
              问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档