闲聊4年大数据经历

0x00 前言

周末闲来无事,想到从13年接触大数据这个名词,到现在也有4年的时间了,随便聊一聊自己和大数据接触的那些经历。

0x01 大数据

“什么是大数据?”

这个问题其实挺难回答的,因为随着技术和时代的变化,一些名词总是被赋予不同的概念,大数据也是,在居士的认知历程中,大数据的概念在某个时期有很广的含义,然后过了一段时间之后,就被划分出来了一些,然后又被划分出来一些,不知道以后还会是什么样子。

居士在这里聊一下自己对于大数据不同阶段的认识。

2013年初

2013年初,刚接触大数据的概念,当时最火的一本书是《大数据时代》,现在在京东还可以买到。居士就是从这本书入门的,那个时候自己在看各种书和文章的时候,能获取到的知识就是大数据是一个范围很广的概念,它包括数据挖掘、机器学习、大规模数据处理、数据分析、据可视化、分布式系统等一系列的内容,总之凡是和数据相关的名词都属于大数据,和数据相关的技术也都数据大数据。

身边一下子多了好多都是搞大数据的,所有的公司也都是在搞大数据的。

2014年到2015年

2013年初的时候,居士深度接触了大数据的相关技术,诸如Hadoop、Spark、Kafka,然后逐渐明白了大数据原来有数据挖掘、数据分析、大数据开发和数据可视化这一堆方向。

那个时候读研,负责大三学弟学妹们的《大数据导论》课程的助教工作,在实验室负责100左右的大数据集群,装装Hadoop、Spark,搞些数据集,布置布置大数据的实验作业,教教同学们装环境和写程序。

那个时候居士的工作中心主要放在了大数据运维和开发上,就是这份经历,基本奠定了后续工作的主旋律。

2016年初

然后到了16年初,感觉机器学习突然间火起来了,突然间大数据的概念就被割裂出去了一大部分,机器学习和数据挖掘这部分和算法强相关的内容一下子就不属于大数据这个概念了。身边很多小伙伴都开始说要转行做数据挖掘了。那个时候感觉,大数据就像是正在消退的云计算的概念一样。

在那个时候,自己对大数据的理解分为三部分:

  1. 大数据运维:集群安装和维护
  2. 大数据开发(ETL方向):数据流开发,比如数据清洗,实时数据处理
  3. 大数据开发(系统方向):数据系统开发,比如报表系统,推荐系统

2016年中

在这个阶段,居士接触了数据仓库这一概念,然后感觉对大数据的理解一下打开了不少。

先随便聊一下数据仓库,概念就不聊了,只谈一下大致的理解,数据仓库代表的是一种对数据的管理和使用的方式,它是一整套包括了etl、调度、建模在内的完整的理论体系。比如元数据管理、维度建模、OLAP分析、ETL。

我们所谓的大数据更多的是一种数据量级的增大和工具的上的更新,因此很多的开源大数据组件可以划分到数据仓库的ETL中。

我们换一个角度理解,数据量的爆发,其实也更新了数据仓库的概念,数据仓库建模和管理数据的理论可能变化不大,但是其使用的技术,会从原来的技术架构更多地转向现有的开源体系。

2017年

2017年,工作的中心转移到了数据仓库的建设上了,这个阶段一方面加深了地数据仓库和大数据的理解,另一方面,由于处理的数据量有了几十倍上百倍的增长,因此对大数据有了更深入的认识。

以前处理的数据规模很小,一天可能只有百万级的数据入库,随便搞搞也没啥毛病,感觉大数据也就那样,搭搭集群就没什么了。

然后数据量一下暴增了,一天要处理的数据增到了百亿的级别,很多任务的数据量都超过了千亿,。下子问题就大了,遇到了很多的挑战,比如数据倾斜、数据丢失、数据读写影响这些问题。

这个阶段,居士才是真正认识到了大数据的魅力,也更深入地理解了大数据存在的意义和解决的问题。

Now

大数据!大数据!其实是离不开数据二字,但是总体来讲,自己之前对数据的认知是不太够的,更多是在关注技术的提升上。换句话讲,自己是在做技术,这些技术处理的是数据,而不能算是自己是在做数据的。大规模数据的处理是一个非常大的课题,但是这一点更偏向于是搞技术的。

我们在做大数据的时候也更应该有数据的理解,这里对数据的理解可能会和数据分析、数据挖掘有类似,但是又不同。居士认为大数据中对数据的理解,除了对数据的分布、价值等理解外,应该更多地加入对数据的组织和管理,比如数据质量的保证、元数据的管理、数据血缘的分析、数据模型的设计等等。

0xFF 总结

嗯,写了不少的东西,比较偏向于个人的理解,并不能算是正确的。 而且只是现阶段的理解,相信,随着时间的变化,自己的理解甚至是大众普遍的认知应该也会有变化。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏CSDN技术头条

如何运用 DDD 解决团队协作与沟通问题?

领域驱动设计的核心是“领域”,因此要运用领域驱动设计,从一开始就要让团队走到正确的点上。当我们组建好了团队之后,应该从哪里开始?

12030
来自专栏IT大咖说

道法术器— DevOps 端到端部署流水线 V2.0

摘要 DevOps独立顾问、DevOps时代联合创始人张乐为我们带来DevOps 道法术器及端到端部署流水线V2.0的分享。 ? VUCA新常态 ? 在移动互联...

44050
来自专栏腾讯大讲堂的专栏

拯救品质之殇,WeTest 精品升级计划推动行业发展

16460
来自专栏PPV课数据科学社区

天下武功唯快不破:从敏捷数据到敏捷数据分析

敏捷,指反应(多指动作或言行)迅速快捷。敏捷和技术结合往往具有快速、简单、迭代的特点。如大家听说的敏捷开发就是指:以用户的需求进化为核心,采用迭代、循序渐进的方...

57360
来自专栏罗超频道

谋求“去微博化”的微博,正在四面树敌?

2014年4月17日,新浪微博成功登顶纳斯达克,代码为WB。3个月后,腾讯对网络媒体事业群进行调整,微博团队与新闻团队被合二为一,办公大厦“腾讯微博”标志被“...

29260
来自专栏DT数据侠

数据如何驱动业务优化?这有一份产品人必读知识清单

数据时代,判断一个互联网企业成功与否的标准之一,就是衡量它各个环节的运营是否形成了“数据飞轮”。那么对于一个互联网从业者来说,是否具有数据意识、是否能够用数据发...

16110
来自专栏互联网数据官iCDO

人工智能将如何革新数字营销领域?

当数字营销人员想到“人工智能”,他们会马上联想到“RankBrain”算法。 2015年,Google推出了RankBrain,一种能自动回复用户的机器学习系统...

41580
来自专栏钱塘大数据

国家大数据标准将出台,企业建设大数据之路如何走?

企业用户如何避免在大数据建设中“东一榔头西一锤子”,或者完全被厂商牵着鼻子走,如何能真正获取大数据的价值?这都是企业用户在大数据建设中真正关注的问题。 本文作者...

42190
来自专栏Android 开发者

如何打造以人为本的移动游戏

18250
来自专栏纯洁的微笑

如何运用 DDD 解决团队协作与沟通问题?

领域驱动设计的核心是“领域”,因此要运用领域驱动设计,从一开始就要让团队走到正确的点上。当我们组建好了团队之后,应该从哪里开始?

12920

扫码关注云+社区

领取腾讯云代金券