【陆勤践行】数据科学 (Data Science)——成就你的未来!

何谓数据科学?在wikipedia中你还找不到Data Science的词条,但它将成就你的未来。

谷歌首席经济学家Hal Varian在2009年说,下一个十年最有吸引力的工作就是统计学家。能获取并处理数据,从中得到有用信息并能图形化,并使人们得以理解,这将是非常重 要的技能。在此处他所称的“统计学家”,实际上是能够提取大数据集的信息,然后展现给非数据专家的那些人,我们也可称之为数据极客(Data Geek)或是数据科学家(Data Scientists)。

一、数据科学的构成

数据科学的组成要素可以从下面这个维恩图得到线索。它包括了计算机技巧,数学和统计知识,实质性的专业知识。

你不一定要拥有计算机科学的学历,但数据是电子化交易的商品,所以你需要了解一些极客技能。这些技能包括:Linux知识,能够操纵文本文件的命令行,了解矢量操作,算法的思想,这些技巧都是数据极客所需要的。

一旦你已经获得并清理好数据,下一步就是从中提取有用的知识。此时你需要运用适当的数学和统计方法。这并不是说你要成为统计学博士,但你确实需要知道普通最小二乘回归之类的东西,以及如何解释其结果。

在第三个关键是专业领域的知识背景。如果数据分析只是你的业余爱好,那么只捣鼓数学、机器学习和统计数据也就够了。但如果你从事数据科学的工作,这就要求从专业背景上提出问题,并用数据和统计方法进行检验,这样才能真正的发现并构建知识。

最后,要注意的是黑客技能加专业知识的危险区。这里所描述的是那些“半桶水专家”,他们知道如何得到合适的数据,甚至掌握如何用R语言进行线性回归并报告系数,但他们不理解那些系数的真正含义。在不了解内在统计意义时进行数据分析是危险的,这也是数据分析经常被滥用情况。

二、数据科学家的能力

“数据科学家”的工作自然定义了数据科学。他们的工作涵盖了从数据收集到数据整理,应用统计学和机器学习等相关技术,对数据进行解释、沟通和可视化。

数据科学崛起的原因之一是因为技术进步,这使数据科学家很容易获得广泛的专业知识。在10年前如果某个人能整合多个数据库进行多层回归,并生成一个优美的图形,这被认为是非常罕见的。

原因之二是因为职业棒球数据分析师所起的表率作用。商界领袖喜爱用体育来打比方和举例子,职业体育领域的数据分析使得数字能击败直觉,所以它立即受到大家的关注。

数据科学家有三个重要技能:

1)计算机能力:数据的获取和整理

数据整理。任何数据分析项目的第一步是数据整理,对应着数据获取、清洗、格式转换等工作,使之成为可用数据。现在有各种各样的数据格式:数字、表格、Web网页、文本,甚至包括语音和视频。在处理凌乱的原始数据时,脚本语言(例如Perl和Python)是必不可少的。 大规模数据。传统的关系型数据库在大规模数据条件下已经不在有效。为了有效地存储庞大的数据集,我们看到的数据库出现的新品种。这些通常被称为非关系数据 库,例如谷歌的BigTable和Amazon的Dynamo,它们有非常灵活的架构设计,分布在多个节点,以提供“最终一致性”。 存储数据只是数据平台建设的一部分。在目前的大规模数据集计算问题上,谷歌推广MapReduce方法,基本上它是利用非常庞大的计算集群进行分布计算。 最流行的MapReduce开源实现方法就是Hadoop。Hadoop使“敏捷”数据分析成为可能。在软件开发中,“敏捷”意味着更快的产品周期,开发 商和消费者之间更密切的互动。传统的数据分析需要极长的周转时间。它可能要几个小时、甚至几天才能完成。但是在Hadoop帮助下可以很容易地建立集群, 以执行大规模数据集的迅速计算。更快的计算速度使你更容易地测试不同的假设,不同的数据集和不同的算法。

2)数学和统计学能力:数据的挖掘

机器学习是数据科学家的另一项必不可少的工具。目前有许多机器学习库可以利用:在 Python中有PyBrain,在Java中有WEKA,谷歌刚刚宣布了他们的Prediction API,使其机器学习算法得以公开使用。Stanford的机器学习课程,是计算机科学中最流行的课程之一,推荐学习。 虽然在这里没有强调传统的统计模型在数据分析中的重要作用,但是统计是“数据科学的语法”。它是至关重要的。数据科学不只是获取数据然后来猜测其意义,它也包含了假设检验,确保你的数据结论是有效的。统计已成为一项基本技能。它并没有被机器学习或商业智能所取代。 虽然有许多商业统计软件包,但开源R语言是一个不可或缺的工具。虽然R是一个奇怪的语言,但它为大多数统计工作提供“一站式购物”。它还具有出色的绘图功 能。 CRAN中包括了多种类型的数据解析器和分布式计算扩展。如果有一个单一的工具,能为统计工作提供了一个最终解决方案,那就是R语言。

3)图形可视化:数据的提炼和展现

一张图片胜过千言万语,可视化是数据分析的初步探索工作,也是每个阶段的关键。FlowingData博客是一个寻找创意可视化非常棒的地方。这也是我的最爱之一,这个可视化例子就是随着时间的推移,沃尔玛增长的动画。这就是数据可视化的艺术。

三、数据科学家的职业生涯

对数据科学的定义也是从其职业生涯角度来看的,一个典型的职业路径可能是从编程开始学习,然后在科学领域花了一段时间,围绕着各种不同的角色,然后学会多种不同的技能,所有这些都涉及到使用分析技术,以便理解数据。

这种职业路径不是特别新,但它现在可能使你能快速而廉价地开展科学数据工作。高速计算机,开源工具,和一些编程技巧允许我们快速的尝试一种新型数据管理方法或一种新的机器学习技术,直到找到问题的解决方案。

这里就存在两个方面的后果。首先,现代数据科学家的生产力显著增加了。数十年前需要一个 团队工作几年的项目,现在几天内就能完成。其次,这个惊人的生产力,可以使人们的时间更多的花费在数据科学的垂直整合过程中,而不必花在单一方面的技能学 习上。在以往成为数据科学量需要学习大量的东西,但现在你不用成为某个方面的大师也能快速获得这些技能。

推荐网站:

1 PPV课,www.ppvke.com

2 王路情博客-数据科学家, www.wangluqing.com

原文发布于微信公众号 - 数据科学与人工智能(DS_AI_shujuren)

原文发表时间:2015-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【学习】网站数据分析:电子商务网站用户分析

? 前一篇文章主要是基于点击流数据的用户分析,适合所有网站,而对于一些特殊的网站,可以根据自身所能获取的数据将分析的指标进行扩展或根据自身的特征定制合适的指标...

3647
来自专栏腾讯技术工程官方号的专栏

腾讯俞栋:定义下一代智能人机交互,从目标、挑战到实现路径

语音识别及深度学习领域专家、腾讯AI Lab副主任及西雅图实验室负责人俞栋博士,在2018年腾讯全球合作伙伴大会上展示了腾讯AI正在推进的跨领域前沿研究:下一代...

1662
来自专栏SDNLAB

云计算行业高收入的11个技能

随着企业将基础设施迁移到公有云中,对掌握了云计算技能的专业人员的需求逐渐加大,企业无法找到足够的专业人员来管理和支持其环境,云计算技能逐渐成为所有IT技能中最受...

5296
来自专栏XIEJUN

未来十种AI人工智能技术

AI人工智能说(或写)出正确的单词并且是连贯的顺序来传达一个明确且清晰的意思,而且还能很容易被听众(或读者)理解,对于一台以完全不同于人脑的方式处理信息的AI人...

1340
来自专栏数说工作室

【数说·大数据圈】当我们谈论“细分”(segmentation)的时候我们在谈论什么

我们经常听到一些创业者说,“我做的这个产品主要面向XX客户”,有人服务于高净值人群、有人专门面向女性客户群,也有人专注于老年市场......,不同的客户群之间存...

4704
来自专栏ATYUN订阅号

微软宣布在中英文机器翻译方面取得重大突破

AiTechYun 编辑:nanan 微软本周三宣布,他们已经创造出了第一台机器翻译系统,能够以与人一样的准确度将新闻稿件从中文翻译成英文。该公司表示,他们对该...

3607
来自专栏华章科技

大数据入门,你需要懂这四个常识

大数据分析的使用者有大数据分析专家,同时还有普通用户,但是他们二者对于大数据分析最基本的要求就是可视化分析,因为可视化分析能够直观的呈现大数据特点,同时能够非常...

883
来自专栏PPV课数据科学社区

《R语言游戏数据分析与挖掘》新书推荐

作者:谢佳标 微软中国MVP,多届中国R语言大会演讲嘉宾,目前在创梦天地担任高级数据分析师一职, 作为创梦天地数据挖掘组的负责人,带领团队对游戏数据进行深度挖掘...

4036
来自专栏腾讯社交用户体验设计

未来已来,变革中的数据可视化--遇见大数据可视化系列文章之一

1712
来自专栏无原型不设计

五个步骤搞定敏捷UX设计

互联网产品发展的速度越来越快,人们对于产品的要求也在不断的升级,这直接地导致了用户体验设计的重要性不断提升。与此同时,过去的流程冗长的设计开发模式已经不能够满...

2773

扫码关注云+社区

领取腾讯云代金券