作者:陆勤
摘要:介绍玩数据的四部曲,分别是数据、算法、计算引擎和知识表达。
文章《R语言玩数据:R语言和数据》介绍了R语言和数据。 文章《R语言玩数据:流程和环境》介绍了玩数据的流程和环境搭建。
本文介绍玩数据的四部曲,分别是数据、算法、计算引擎和知识表达。
数据的观点,如下:
如何从数据中学习到有用的知识,就需要算法+计算引擎+知识表达。
算法的观点,如下:
算法要让计算机来执行,面对各种逻辑弄清楚后,落地就是“计算”了。因此,熟悉常用的计算引擎和选择合适的计算引擎,也是非常重要的。 数据人网的数据技术里面包括R、Python、Hadoop和Spark,实则它们都可以当作一种计算引擎。关于计算引擎的使用,唯一的建议,根据具体的问题选择合适的计算引擎,秉持“不负荷和不浪费”的原则。
从数据中学习到有用的知识后,知识如何表达呢?或者说,输出的结果怎么表达的? 知识表达观点,如下:
一个玩数据的人,数据这四部曲,需要花费时间和精力去修炼。庆幸的是,“你不是一个人在奋斗!”