专栏首页算法无遗策BI、数据仓库、ETL和数据开发(大数据开发)会有区别吗?

BI、数据仓库、ETL和数据开发(大数据开发)会有区别吗?

作者 | 匿名用户

来源 | 知乎

这些角色划分的界限本身就很模糊,一个人甚至可以同时扮演全部这些角色。

首先说说数据仓库系统构建过程中一些主要的环节:

1. 数据收集

2. ETL

3. 报表系统的开发

4. 基础技术环境的构建、维护

5. 算法、数据挖掘

6. 类似于AB测试系统各个数据应用系统的开发

7. 数据安全、备份

基本上1,3 ,4 ,6,7项工作是属于工程属性比较强的工作,2,5项属于工程和领域知识有交叉的工作。

1. 数据收集。一个完善的收集系统,不仅要搭建成数据收集的管道,还需要对数据收集过程本身做好监控,对数据收集过程中出现的问题及时知晓、及时处理。

2. ETL,将收集过来的数据进行清洗、转换,在此过程中形成数据仓库的层次化结构。这个环节需要一个根据具体的业务需要,通过ETL过程形成数据仓库的层次化体系结构以及抽象概念系统,以便于后续的报表开发和数据分析、数据挖掘。

3. 报表系统开发。技术上需要一个开发工程师来做,需求上需要一个熟悉业务的人来定。报表系统的内容会随时间、随业务不断演化,因此设计上也需要适应这种演化。

4. 基础技术环境的构建、维护。负责底层数据存储、计算框架的设计和维护,建立起存储和计算的层次结构,比如最活跃的数据可以放在性能较高的设备上,而旧的数据可以放在几台专门的归档服务器上;计算上,大型的数据转换任务可以交给MapReduce来做,而基于小数据量计算的报表指标就可以使用性能较高的内存计算来做,比如Presto。

5. 算法、数据挖掘。在ETL结果之上进行数据分析、数据挖掘任务。工作过程中可能需要一些新的数据,这就需要和数据收集、ETL相关的人员进行沟通,以达成工作目标。

6. 类似于AB测试系统各个数据应用系统的开发。数据分析、数据挖掘的结果需要应用到产品的优化上,而数据的应用系统就是要打倒这个目的的。这些系统仅仅作为桥梁存在,主要就是要保证性能达标、以及逻辑正确。这个环节与数据收集阶段结合,就生成一个数据系统闭环。

7. 数据安全、备份。非常重要的工作,数据的访问权限限制、数据的冗余备份机制,都要逐步建立起来,灾难恢复机制要经常进行测试,做好最后一道防线。

根据工作量和具体需求,工程性工作大概需要1到3三个有相关经验的工程师即可,而需要领域知识和熟悉业务的工作,大概也需要1到2人。至于人要挂什么title,看着来吧!

PS:随着业界的不断发展,和对数据认识深度不断地提升的客观需求,一些机器学习相关的知识也应该纳入到日常的工作内容中了,其中特征工程是一项基本的技能。

——END——

本文分享自微信公众号 - 算法无遗策(gh_6519e8c0cb55)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-11-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 视频动画 | 什么是鸡尾酒排序?

    鸡尾酒排序其实就是冒泡排序的变形,它的时间复杂度和冒泡排序一样,都是O(n^2),比快速排序要慢不少。

    我脱下短袖
  • LeetCode动画 | 128.最长连续序列

    今天分享一个LeetCode题,题号是128,标题是最长连续序列,题目标签是并查集和数组。

    我脱下短袖
  • 漫画 | 什么是散列表(哈希表)?

    创建与输入数组相等长度的新数组,作为直接寻址表。两数之和的期望是Target,将Target依次减输入数组的元素,得到的值和直接寻址表比较,如果寻址表存在这个值...

    我脱下短袖
  • 独家 | 改善AI性别偏见的4种方法

    任何对AI偏见的审查都需要意识到一个事实:这些偏见主要源于人类固有的偏见。我们创建、训练的模型和系统就是我们人类自己的真实写照。

    数据派THU
  • springboot配置国际化资源文件 使用themself模板进行解析

    用户5927264
  • AI识别早期脑瘫,可将儿童运动视频转化为“火柴人”显示

    雷锋网消息 近日,赫尔辛基大学和比萨大学研究人员,与AI公司坦佩雷 (Tampere)的神经事件实验室(Neuro Event Labs)合作,开发并证明了一种...

    AI掘金志
  • 如何通过Google来使用ggplot2可视化

    今天是大年初二,这篇文章我只想传达一点: 没有什么菜鸟级别的生物信息学数据处理是不能通过Google得到解决方案的,如果有,请换个关键词继续Google! 第一...

    生信技能树
  • 全国首个5G+AI的智慧交通管理示范应用成功开通!

    中国移动5G网络的高传输率、高宽带、高可靠的特性,可为交管部门大幅度提升道路监控视频回传的质量及效率;而5G的边缘计算能力,可将人工智能算法就近部署,提高了交通...

    数据派THU
  • 浏览器原理0. 前言1. 解析过程2. 渲染树2.1 CSS样式计算2.2 构建渲染树3. 布局(重要)4. 重绘与重排(重要)5. paint(绘制)6. composite(重要)7. 浏览器加载

    身为前端,打交道最多的就是浏览器和node了,也是我们必须熟悉的。接下来我们讲一下浏览器工作原理和工作过程。从url到页面的过程,......,我们直接来到收到...

    lhyt
  • 【STM32H7教程】第12章 STM32H7的HAL库框架设计学习

    完整教程下载地址:http://forum.armfly.com/forum.php?mod=viewthread&tid=86980

    armfly

扫码关注云+社区

领取腾讯云代金券