全栈 - 2 序言 数据工程和编程语言

这是全栈数据工程师养成攻略系列教程的第二期:2 序言 数据工程和编程语言。

现在大数据的概念火得不行,太多的人言必称大数据,所以我这里就不谈大数据,而是介绍如何去做一些个人能hold住的小而美的数据工程和数据应用。

如何玩转数据

玩转数据基本包括以下四个流程:

  • 第一是采集,我们的数据从何而来?要么是别人准备好提供给我们,要么就需要我们自己去采集,或者从互联网上抓取;
  • 第二,我们需要把采集到的数据存储下来。可以存储到静态文件,例如txt、csv、json等,也可以存储到一些通用而且成熟的数据库里,例如mysql、postgres等;
  • 第三,对存储的数据进行清洗和分析。一方面是做一些统计汇总的工作,并得出一些结论;另一方面是用机器学习的方法训练一些模型,并且用来解决实际问题;
  • 最后,用数据可视化的方法将所得的结论和模型进行展示,毕竟一图胜千言,数据可视化可以帮助我们更好地展示从数据中挖掘出的价值。

关于编程语言

很多人都在争论,到底哪种编程语言最好;也有很多人在困惑,要做数据分析的话,应该从哪种编程语言学起。其实在我看来,只学习一门语言可能远远不够,而是各个方面都应当有所涉足,但是同时又有最擅长和习惯使用的一两门语言。

C++和Java这两门语言你需要至少熟悉一门,从而了解语法的基本内容和面向对象的编程思想。熟悉的意思是不用完全掌握,只要在要用的时候,查一查,能够快速回想起来相关内容即可。

Python是一门简单好用而且功能强大的语言,也是我使用最多、最为熟悉的一门语言,开玩笑地说,Python大法好,除了炒菜别的Python都可以干。

R是一门统计分析语言,近几年它的学习门槛和成本都在不断降低,可以用来做一些专业的分析和绘制一些漂亮的图形。

然后就是和Web网站开发相关的一些语言,例如后端的PHP、NodeJS,前端的HTML、CSS和JavaScript等。

就我个人而言,比较习惯于用Python采集数据并且写入到文件或数据库,做分析的时候结合使用Python和R。至于可视化,则是用R绘制一些静态图形,使用Web网站做一些交互可视化。

在接下来的教程中,我会以Python为主,为大家介绍如何进行数据的采集、存储、分析和可视化,带大家去做一些简单而有意思的事情。

原文发布于微信公众号 - 宏伦工作室(HonlanFarm)

原文发表时间:2016-11-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏黑泽君的专栏

day48_项目管理学习笔记

9320
来自专栏GopherCoder

『No22: 如何梳理代码逻辑』

在日常工作中,作为初中级程序员,大部分的工作是在实现业务逻辑,但有可能整个项目的代码,你不是第一个接手的,即代码结构不是你设计,前期的需求讨论你也没有参与,最常...

33350
来自专栏DevOps时代的专栏

DevOps 三步工作法之持续反馈的技术与案例

导言 很高兴参与DevOps时代社区的拆书联盟第一季活动,有幸能与几位DevOps大牛一起解读《DevOps Handbook》一书,这本书作者牛,内容也很牛,...

29070
来自专栏腾讯大讲堂的专栏

腾讯海量监控体系经验分享

提及腾讯的海量监控的挑战,将近 20 套监控系统,指标有将近 300 多个,监控的实例超过 900 万。

1.2K90
来自专栏数据科学与人工智能

【大数据分析】大数据分析方法 及 相关工具

要知道,大数据已不再是数据大,最重要的现实就是对大数据进行分析,只有通过分析才能获取很多智能的,深入的,有价值的信息。 越来越多的应用涉及到大数据,这些大数据的...

44380
来自专栏CSDN技术头条

Get 技术领域最新趋势!

ThoughtWorks 每年都会出品两期技术雷达,这是一份关于技术趋势的报告,由 ThoughtWorks 技术战略委员会(TAB)经由多番正式讨论给出,它以...

12430
来自专栏Alan的UX笔记

交互设计|设计方案记分对比法

15360
来自专栏Java大联盟

Java进阶之路——从初级程序员到高薪架构师

要记住公司招人是解决问题的,基于现有问题出发,大家一般心里会有一个大致的解决方案,而这个解决方案通常是由若干种技术组合而成。

21620
来自专栏直播系统源码

短视频开发都需要什么技术?

今天我们来讲点干货,估计来看这篇帖子的人都知道短视频APP有多火,也都知道安卓系统在手机系统中占的市场份额有多大,那我就不多嘴巴拉巴拉一些行业背景了,以下我着重...

53800
来自专栏编程

C加加和游戏开发那些事,告诉你怎么用C加加纵横游戏编程

C语言和C++ C 语言可以说是一门设计的非常成功的语言。但是C语言没有OOP的特性,在做一些大型项目的时候力不从心。一些大型的C项目,随着项目的臃肿,人类基本...

36750

扫码关注云+社区

领取腾讯云代金券