前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >“数据湖”刚学会,又来了一个“数据海”?

“数据湖”刚学会,又来了一个“数据海”?

作者头像
小晨说数据
发布2022-03-09 10:00:51
1.3K0
发布2022-03-09 10:00:51
举报
文章被收录于专栏:小晨讲Flink

作者简介:6年大数据开发经验,从毕业一直从事大数据开发工作,渣渣二本,凭借自己努力进入一线互联网企业,目前负责实时计算开发工作。最近看到大家对互联网词汇特别迷,我就写一篇文章来给大家讲讲,好久没有写原创了,主要是平时太忙了,没时间写。

主要内容:

1、什么是数据海?

2、大数据内卷现状

3、大佬乱造词加速内卷

4、如何反制大佬胡乱带节奏

5、如何快速提升自己的技术

一、数据海

随着业务的蓬勃发展,商务智能、数据仓库、数据中台、数据湖已经无法满足大佬催牛逼的需求,他们希望出来一个新名词,来加速内卷,方便忽悠,就像黄河一样,每年都要把河床抬高,才能凸显出自己的技术沉淀,所以数据海就会应运而生,在讲述数据海的概念之前,我先带着大家温故一下商务智能、数据仓库、数据中台和数据湖,既然卷,就要从头开始卷起来。

商务智能(BI,Business Intelligence)是一种以提供决策分析性的运营数据为目的而建立的信息系统。是属于在线分析处理:On Line Analytical Processing(OLAP),将预先计算完成的汇总数据,储存于魔方数据库(Cube) 之中,针对复杂的分析查询,提供快速的响应。在前10年,BI报表项目比较多,是数据仓库项目的前期预热项目(主要分析为主的阶段,是数据仓库的初级阶段),制作一些可视化报表展现给管理者。

数据仓库(Data Warehouse) 是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化的(Time Variant)数据集合,用于支持管理决策和信息的全局共享。其主要功能是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。[1]:引自全球数据仓库之父 W.H.Inmon。

数据中台是指通过数据技术,对海量数据进行采集、计算、存储、加工,同时统一标准和口径。数据中台把数据统一之后,会形成标准数据,再进行存储,形成大数据资产层,进而为客户提供高效服务。

这些服务跟企业的业务有较强的关联性,是这个企业独有的且能复用的,它是企业业务和数据的沉淀,其不仅能降低重复建设、减少烟囱式协作的成本,上面的阿里巴巴100多个同系列产品同时服务一个淘系就属于烟囱式。

广义的数据中台包括了数据技术,比如对海量数据进行采集、计算、存储、加工的一系列技术集合,时下我们谈到的数据中台包括数据模型,算法服务,数据产品,数据管理等等,和企业的业务有较强的关联性,是企业独有的且能复用的,比如企业自建的2000个基础模型,300个融合模型,5万个标签。

数据中台广义上是企业业务和数据的沉淀,其不仅能降低重复建设,减少烟囱式协作的成本,也是差异化竞争优势所在。

数据湖(Data Lake)是一个存储企业的各种各样原始数据的大型仓库,其中的数据可供存取、处理、分析及传输。数据湖是以其自然格式存储的数据的系统或存储库,通常是对象blob或文件。数据湖通常是企业所有数据的单一存储,包括源系统数据的原始副本,以及用于报告、可视化、分析和机器学习等任务的转换数据。数据湖可以包括来自关系数据库(行和列)的结构化数据,半结构化数据(CSV,日志,XML,JSON),非结构化数据(电子邮件,文档,PDF)和二进制数据(图像,音频,视频)。来源:维基百科。

那问题来了,什么是数据海?

数据海就是对那些喜欢造词的大佬的嘲讽而已

大佬的一贯方法就是,等菜鸟都把数据湖研究的差不多了,数据海概念就会出来了。

二、数据内卷现状

如果你想成为数据开发工程师,需要满足以下几点:

1、工程能力:需要会mvn、spring、爬虫、linux操作命令、各类大数据组件都要熟悉架构原理(hadoop、hive、spark、flink、doris、clickhouse、hbase、redis、es、druid、flume、kafka、cancel、az等等我自己都数不过来了)卷的已经学不动了

2、语言能力:需要会java、scala、python

3、数据理论:商务智能、数据仓库、数据中台、数据湖(后边不知道还会出来啥)

4、绕口的术语:主数据、元数据、退维、onedata、数据质量、数据治理、数据地图、原子指标、派生指标、度量、范式、维度建模等等

5、各种需求报表:sqlboy干的活,大家都懂得,无底洞

6、各种背锅:业务效果好(是策略的功劳);业务效果差(是数据指标不准确,数据支持不到位,模型依赖的基础数据支持不到位)

7、别的我就不多说了,已经很累了,我再说下去,感觉没有年薪200万,这活都没法干,太辛苦了,既要又要还要

三、大佬乱造词加速内卷

不知道大家有没有经历过这种情况,当你长时间看一个字的时候,你都不知道这个字念啥,或者你一直盯着一个字看,你就不认识这个字了。

如果大佬疯狂造成,比如:数据中台

估计很多小伙伴花钱买了数据中台的课程还没来的及消化透彻,数据湖又冒出来,然后一帮人开始又去研究数据糊了,各种报班去学习数据湖,当然我不是反对🙅‍♂️大家学习,我是觉着大家盲目的去追随大佬瞎几把忽悠,会让你们走火入魔。

我举个例子,你们肯定不会相信辟邪剑法里面的第一式:“欲练神功,必须自宫”,因为你刚开始接触这本秘籍。

当你们研究了很久之后,你们开始感觉怀疑人生了,发现书本上写的可能是对的,你们会跟着书本去学,其实都是大佬瞎逼忽悠的词汇。

大佬瞎逼搞不是没有道理的,你们想想,如果他们想要提升自己的逼格,他们应该做什么,肯定做别人不知道的事情,就是让别人学不懂的东西,各种参考什么比皮书啥的,我都不想骂街。

数据仓库:分而治之,正常人都会知道的,曹操称象故事大家都知道吧,人家六岁的小孩都知道分而治之,还用你们大佬瞎逼搞词?

数据中台:开发提效,我就不想喷哪些瞎几吧乱喊的了,本来就有的东西,非要弄个词来炫耀,感觉以前没有的事情一样。

数据湖:历史中早就出现了异构数据,非要起个名字瞎几把搞。

四、如何反制大佬胡乱带节奏

如果有大佬告诉你他们在弄数据湖,你就跟他说:“我们都开始弄数据江和数据海了”。

如果有大佬告诉你他们在搞数据中台,你就跟他说:“我们在搞数据大台和数据小台”

总结:他们傻逼让他们傻逼,不要跟节奏。

四、如何快速提升自己的技术

1、不管你做什么,归根结底都离不开业务,这个是你永远都摆脱不掉的,根据业务场景去选择技术架构,通过业务磨练你的技术能力,只有你帮着业务实现了收益,才能证明你的技术价值

2、要学会思考🤔你当前做的事情的价值是什么?如果你都不知道价值,埋头苦干,你做了很多东西,老板都不认可,你在老板眼里就等于没有技术,你的薪资也不会上来

3、技术组件要跟进步伐,比如doris,clickhouse,flink这些比较热门的技术要快速学习。技术组件要学习新的,老掉牙的别学。

5、总结

希望各位大佬,不要瞎几把再造词了,搞点实实在在的事情吧,已经很倦了,我们都学不动了,被你们搞得懵逼了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2021-09-03,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 小晨说数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档