前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >全栈 - 2 序言 数据工程和编程语言

全栈 - 2 序言 数据工程和编程语言

作者头像
张宏伦
发布2018-06-07 14:49:22
4790
发布2018-06-07 14:49:22
举报
文章被收录于专栏:宏伦工作室宏伦工作室

这是全栈数据工程师养成攻略系列教程的第二期:2 序言 数据工程和编程语言。

现在大数据的概念火得不行,太多的人言必称大数据,所以我这里就不谈大数据,而是介绍如何去做一些个人能hold住的小而美的数据工程和数据应用。

如何玩转数据

玩转数据基本包括以下四个流程:

  • 第一是采集,我们的数据从何而来?要么是别人准备好提供给我们,要么就需要我们自己去采集,或者从互联网上抓取;
  • 第二,我们需要把采集到的数据存储下来。可以存储到静态文件,例如txt、csv、json等,也可以存储到一些通用而且成熟的数据库里,例如mysql、postgres等;
  • 第三,对存储的数据进行清洗和分析。一方面是做一些统计汇总的工作,并得出一些结论;另一方面是用机器学习的方法训练一些模型,并且用来解决实际问题;
  • 最后,用数据可视化的方法将所得的结论和模型进行展示,毕竟一图胜千言,数据可视化可以帮助我们更好地展示从数据中挖掘出的价值。

关于编程语言

很多人都在争论,到底哪种编程语言最好;也有很多人在困惑,要做数据分析的话,应该从哪种编程语言学起。其实在我看来,只学习一门语言可能远远不够,而是各个方面都应当有所涉足,但是同时又有最擅长和习惯使用的一两门语言。

C++和Java这两门语言你需要至少熟悉一门,从而了解语法的基本内容和面向对象的编程思想。熟悉的意思是不用完全掌握,只要在要用的时候,查一查,能够快速回想起来相关内容即可。

Python是一门简单好用而且功能强大的语言,也是我使用最多、最为熟悉的一门语言,开玩笑地说,Python大法好,除了炒菜别的Python都可以干。

R是一门统计分析语言,近几年它的学习门槛和成本都在不断降低,可以用来做一些专业的分析和绘制一些漂亮的图形。

然后就是和Web网站开发相关的一些语言,例如后端的PHP、NodeJS,前端的HTML、CSS和JavaScript等。

就我个人而言,比较习惯于用Python采集数据并且写入到文件或数据库,做分析的时候结合使用Python和R。至于可视化,则是用R绘制一些静态图形,使用Web网站做一些交互可视化。

在接下来的教程中,我会以Python为主,为大家介绍如何进行数据的采集、存储、分析和可视化,带大家去做一些简单而有意思的事情。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-11-30,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 宏伦工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 如何玩转数据
  • 关于编程语言
相关产品与服务
对象存储
对象存储(Cloud Object Storage,COS)是由腾讯云推出的无目录层次结构、无数据格式限制,可容纳海量数据且支持 HTTP/HTTPS 协议访问的分布式存储服务。腾讯云 COS 的存储桶空间无容量上限,无需分区管理,适用于 CDN 数据分发、数据万象处理或大数据计算与分析的数据湖等多种场景。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档