总结过去,继往开来,也祝愿朋友们,新年快乐,虎年大吉。
数据是什么?
数据:承载信息符号的载体;其中信息是指“表征事物或者其属性的特定存在状态”的一种抽象物。一种事物具有具象实体和抽象虚体两部分;我们常说要透过事物的现象看清楚事物的本质。具象具有迷惑性,抽象却常常能够体现事物的本质。
为什么需要数据?
数据可以缓解焦虑,在不确定性面前人们常常会焦虑不安,不确定性意味着意料之外的危险,比如:决策失误,误人误己。所以数据承载的信息是缓解焦虑的一剂良药。
数据怎么用?
对数据的处理有两种大的处理方式:一个是数据集成,一种是数据分解。
集成对应着数据仓库的建设,集成让数据具有表达的全面性,从而具有可用性;分解对应这数据分析,分析特定场景表达的具体性,从而具有可执行性。
在数仓和数据分析的基础之上,我们将迎来数据更高层次的应用即:机器学习。
数据仓为了万物数字化;数据分析为了万物信息化;机器学习为了万物智能化。
比如:
描述具体事物我们需要数字;
做好对错的决策我们需要信息;
赋予人造物能动性需要智能化。
数据知识体系文章:
数仓 | 数分 | 挖掘 |
---|---|---|
《数仓矛盾的演进之旅》 | 《是否,总是绿肥红瘦》《多种平均数》《统计学的智慧七珠》 | 《小白炼成植物学家》 |
《数据大师们的纷争》 | 《AB test》,《数据抽样方法大全》 | 《怎样经营好餐馆》《一元回归》 |
《MR与spark对比》 | 数据分析六字诀戏谈《长安十二时辰》的大案牍术 | 《聚类,其实就是近朱者赤》,《客户分类是精细化运营的第一步》 |
《数据库与数仓的区别》 | 掌握事态功效分析典型相关性分析 | 《年入15万,买私家车的概率》 |
《pig实战数据行列变换》《要懂点,数据开发基本功》 | 泰坦尼克的冰冷,中国消费结构的变动,《类别变量的分析》《因子分析和对应分析干货实践》《典型相关分析:科研投入与产出》《多维标度分析:城市距离与省市消费》 | adboost算法,《方差分析:单因子和双因子分析》《K近邻,最简单的预判“你买了吗?”》《见山之门:神经网络》 |
《数据质量的把控》《大数据开发,一定要关注小细节》 | 数据谎言,ggplot可视化,鬼城的诞生,R玩转数据框 | pageRank算法时间序列-应用时间序列-概述 |
《SQL结构化美》《最优路径:SQL基本功》 | 人口红利中美消费差异如何数据分析数据分析利器仙谱制作 | 贝叶斯算法图片检索EM聚类算法决策树算法 |
你的成长,是我最开心的事!