商僧语
2012年《哈佛商业评论》( Harvard Business Review)把数据科学家誉为“21世纪最性感的职业”。数据科学也日渐成为更多小僧们的追逐的心仪对象。那么如何成为一名高大上,酷拽狂的数据科学家呢?就让商僧带你了解下吧!要想了解数据科学家,我们首先需要知道什么是数据科学,下面我们来看一下有关数据科学的简单介绍。
■ ■ ■
概述
数据科学是指用自动化的方法来分析结构化或非结构化的海量数据,并从中提取知识。它是数据挖掘技术和预测分析领域的延续,也被称为知识发现和数据挖掘(KDD)。
“非结构化数据”包括电子邮件、视频、照片、社交媒体和其他用户生成的内容。数据科学常常需要整理大量的信息,编写算法进而从这些数据中得到启发和见解。
数据科学使用来自包括数学、统计、化学计量学、信息理论和计算机科学在内的广泛领域的技术和理论。
具体来说,这些技术和理论包括信号处理、概率模型、机器学习、统计学习、数据挖掘、数据库、数据工程、模式识别和学习、可视化、预测分析、不确定性建模、数据仓库、数据压缩、计算机编程和高性能计算。数据科学利用数据准备、统计学和机器学习来研究各个领域的问题,比如农业、营销优化、欺诈检测、制定公共政策等。
研究领域
数据科学的科学探究来自广泛的学科领域。其中一些研究领域包括:
1. 数据挖掘和知识发现(KDD)
2. 云计算
3. 数据库和信息集成
4. 信号处理
5. 学习、自然语言处理和信息提取
6. 计算机视觉
7. 信息检索和网络信息访问
8. 社会和信息网络知识发现
9. 信息可视化
发展趋势
下面我们来看一下Semantical, LLC公司的创建者和CEO Kurt Cagle(美国信息架构师、数据科学家、作家和行业分析师)总结的2015年数据科学的十大发展趋势:
1. 数据虚拟化的出现
数据虚拟化是指打开公司数据仓库,通过使用能够储存和检索各种格式内容的混合数据系统使这些数据可以被人们互相访问。有了数据虚拟化,数据可以来自多个渠道和格式。
2. 混合数据存储变得更加普遍
混合数据存储能够用不同的方式来储存信息,将这些信息进行内部转化,并且提供更复杂的中间层loigc类型。
3. 语义学成为标准
SPARQL标准的升级会成为与三方存储沟通的机制,这反过来会推动基于语义的新应用程序的使用。
4. 没有Map-Reduce的Hadoop,没有Hadoop的Map-Reduce
5. 数据库成为工作存储器
6. 迈向通用数据查询语言
7. 数据分析超越SQL
8. JavaScript栈更加稳固
9. 数据科学团队的进一步创建
数据科学是一个广泛的领域,该领域的大多数人实际上是这一领域某个方面的专家。通常情况下,这样的团队将由许多有着不同专长的人组成:整合者、数据翻译专家、数据架构师、保管员、随机分析师、领域专家、形象化专家、数据科学经理。
10. 数据可视化和柔性报表将成为现实
总之,数据科学在未来几年的关键性发展将会是企事业单位内部逐渐远离孤立的数据仓而转变到开放的数据平台。不仅人与人之间的信息分享变得更加容易,机器与机器之间的信息分享也变得更加容易。因为语义层标准、最佳实践、创新的数据技术和公司结构的变化会改变数据在我们生活中的角色。
了解完了数据科学,那么和商僧一起看看数据科学家到底做什么呢?
数据科学家是指能采用科学方法、运用数据挖掘工具对复杂多量的数字、符号、文字、网址、音频或视频等信息进行数字化重现与认识,并能寻找新的数据洞察的工程师或专家(不同于统计学家或分析师)。
一个优秀的数据科学家需要具备的素质有:懂数据采集、懂数学算法、懂数学软件、懂数据分析、懂预测分析、懂市场应用、懂决策分析等。数据科学家通常在团队环境中工作,与经理、IT管理员、程序员、统计学家、平面设计师和公司的产品或服务方面的专家一起工作。
1
如何成为数据科学家
教育背景要求
数据科学家对教育背景的要求是所有IT行业里面最严格的。大约40%的数据科学家的职位都要求有高级学位,比如硕士、工商管理硕士或博士学位。其他公司也接受在分析相关领域有本科学历的数据分析师,比如计算机科学、数学和统计学、管理信息系统、经济学、工程学和自然科学。
一些学校也会提供以职业发展为核心的课程、以及像数据库管理、预测分析、商业智能、大数据分析和数据挖掘这样的分析学科的学位和证书,所有这些都给数据科学家的职业提供了坚实的基础。像这样的针对性训练项目也为现在的商业和IT专业人士学习进入这一火热领域所需要的技能提供了很好的方法。
资格认证
领先的数据库系统的数据库管理和BI认证,比如Oracle和SQL Server,一直以来都是使用这些数据库管理软件进行数据管理和分析的企事业单位所需要的。
当提到“大数据”的时候,大部分认证直接来自于主要的分析软件供应商,比如EMC,SAS和IBM。尽管这种供应商赞助的证书设计精良,但是它们明显的局限就是倾向于只针对认证公司的生产线。
这一领域比较突出的就是EMC的数据科学证明专业认证,因为它涵盖了一系列的独立于供应商的大数据工具、技术和最佳实践。
2
数据科学家的工作前景
到2020年,数据科学家将会享有所有的IT行业中最光明的工作前景之一。数据科学和分析是IT领域中存在的大量快速增长的人才缺口的家园,也就是说,这一领域的职位空缺要比能够填补这些空缺的合格的数据科学家要多。
63%的IT高管在2011年的研究中根据他们对IT服务公司EMC的领导做出投票,投票显示对数据科学家的需要将会大大超过2018年人才供应量的31%或者超过32%。另一个来自麦肯锡全球研究所的综合报告预测,到2018年,美国市场对拥有数据分析技能人才的需求缺口将达19万人。
数据科学家和大数据科学家在当今的高科技和社交媒体巨头中是十分受欢迎的。在你最喜欢的招聘网站上面搜索“数据分析师”或者“大数据”的时候,你很可能会看到一些诸如Facebook、LinkedIn、Groupon、Spotify和Amazon的这些公司在寻求新人才。这些企业积累了海量的原始数据,并且十分理解等待利用大数据爆炸的最早的行动者将拥有改变游戏规则的优势。
卫生保健是另一个数据科学家招聘的热门领域。随着越来越多的电子病历推广和应用,医疗行业正在创建数据集来与最大的企业竞争。其他大举招聘大数据科学家的行业包括政府机构、社交网络中心、大型零售商和美国军方。
未来,更多的商务决策会建立在数据分析的基础上,今后会有一些能力很强的数据科学家,借着风头,从技术人员成长为商业领袖。而且加盟传统行业、做统计分析,会更容易出头。
总的来说,作为一个有广阔前景、代表着未来方向的职业,数据科学家今后发展空间很大,同时这类工作又需要多个专业的技能,最近几年开始做数据科学家的,大体都算是有先发优势,前景很好。