这是全栈数据工程师养成攻略系列教程的第二期:2 序言 数据工程和编程语言。
现在大数据的概念火得不行,太多的人言必称大数据,所以我这里就不谈大数据,而是介绍如何去做一些个人能hold住的小而美的数据工程和数据应用。
玩转数据基本包括以下四个流程:
很多人都在争论,到底哪种编程语言最好;也有很多人在困惑,要做数据分析的话,应该从哪种编程语言学起。其实在我看来,只学习一门语言可能远远不够,而是各个方面都应当有所涉足,但是同时又有最擅长和习惯使用的一两门语言。
C++和Java这两门语言你需要至少熟悉一门,从而了解语法的基本内容和面向对象的编程思想。熟悉的意思是不用完全掌握,只要在要用的时候,查一查,能够快速回想起来相关内容即可。
Python是一门简单好用而且功能强大的语言,也是我使用最多、最为熟悉的一门语言,开玩笑地说,Python大法好,除了炒菜别的Python都可以干。
R是一门统计分析语言,近几年它的学习门槛和成本都在不断降低,可以用来做一些专业的分析和绘制一些漂亮的图形。
然后就是和Web网站开发相关的一些语言,例如后端的PHP、NodeJS,前端的HTML、CSS和JavaScript等。
就我个人而言,比较习惯于用Python采集数据并且写入到文件或数据库,做分析的时候结合使用Python和R。至于可视化,则是用R绘制一些静态图形,使用Web网站做一些交互可视化。
在接下来的教程中,我会以Python为主,为大家介绍如何进行数据的采集、存储、分析和可视化,带大家去做一些简单而有意思的事情。