导读
自从事数据科学行业以来,便每天在与各种数据处理打交道,当然这里的数据处理是多方面的:既有数据采集和读写,也有数据清洗与变换,当然还有数据分析和挖掘。从主用工具的角度来看,大体上经历了这4重境界:Excel->MySQL->Pandas->Spark,姑且就称之为EMPS吧。
个人数据分析与处理经历的4重境界
对照这4种数据处理工具,计划开展系列学习与对比推文,本期做为开篇之作,仅做以概要介绍。
4种工具严格来讲其实并无实质性联系,除了它们都可用于基本的数据分析与处理。相对而言:
就像世界上没有最好的编程语言一般(当然,PHP除外 :D),数据分析也不存在最好的处理工具,所以这4种工具也并无高下之别,灵活运用合理搭配方能最大化其效用。也正是基于此朴素思想,后续将推出各工具对比学习系列推文,以Pandas与Spark.sql对比为主,MySQL和Excel也会视情加入。