以下都是胡说八道,仅供我个人参考。
自从我改行做数据分析,发现要学习的东西很多,转行并不是一件容易的事情。空缺的知识特别多。所以自己记录自己的一些学习和工作心得。
1、总得来说数据分析流程就3个基本步骤:
输入-->计算-->输出
所以在数据分析中不管是做架构设计还是算法设计这三个基本步骤是不可缺少的;仿佛我们的计算机也是这个最基本的运行流程。
一、输入:
那么在数据分析领域我们输入的是什么呢
当然是数据,文本数据,结构化数据,非结构化数据(音频、视频),具体对象是我们在数据分析中的表数据,或者数据流。
从这些表中,
第一步,摸排表结构,了解各字段含义;提取关键字段,这些字段都是有用的,构成一个对象的属性。没用的字段没必要太理会,这个地方和做其他web应用的有所不同。
第二步,找出唯一属性,能唯一定义每一条数据的,这个字段往往能和其他表的字段关联;
二、计算:
计算大多数时候是交,并、差、过滤等操作。可具体描述数据碰撞流程。
三、输出:
计算完需要用一个结果表将数据接收。