本文中文重新编辑工作系爱聚纽约原创,未经授权谢绝转载。转载请联系微信号:hxfjack
数据科学家是大数据争夺者
他们采用大量凌乱的数据点(非结构化和结构化)
并利用他们在数学
统计和编程方面的强大技能来
清理,按摩和组织它们。
然后,他们运用他们所有的分析能力–
行业知识,情境理解,对现有假设的怀疑–
来发现隐藏的业务挑战解决方案。
“A data scientist is someone who is better at statisticsthan any software engineer and better at software engineering than anystatistician”. – Josh Wills
数据科学家和统计学家之间有什么区别?
在任何一天,数据科学家的职责可能包括:
-进行无向研究并构建开放式行业问题
-从多个内部和外部源提取大量数据
-使用复杂的分析程序,机器学习和统计方法来准备数据,以用于预测和规范建模
-彻底清理和修剪数据以丢弃无关信息
-从各个角度探索和检查数据,以确定隐藏的弱点,趋势和/或机会
-为最紧迫的挑战设计数据驱动的解决方案
-发明新算法以解决问题并构建新工具以实现工作自动化
-通过有效的数据可视化和报告,向管理和IT部门传达预测和发现
-建议对现有程序和战略进行具有成本效益的改变
每家公司都会有不同的工作任务。有些人将他们的数据科学家视为数据分析师,或将他们的职责与数据工程师结合在一起;其他公司需要熟练掌握强大的机器学习和数据可视化的顶级分析专家。
随着数据科学家获得新的经验水平或改变工作岗位,他们的责任总是会发生变化。例如,在中型公司中独自工作的人可能会花费大部分时间进行数据清理和调整。可能会要求提供基于数据的服务的企业中的高级员工构建大数据项目或创建新产品。
我们采访了Airbnb的数据科学家LisaQian,了解了作为数据科学家的工作方式。继续阅读了解数据科学对Airbnb成功的影响,他们在工作中使用的编程语言,以及学生为了成功需要知道的内容。
问:你最重要的职责是什么?
答:事情发生得非常快,数据科学家的影响很大(见下一个问题的答案)。在Airbnb,有许多有趣的问题需要解决,还有很多有趣的数据可供使用。公司的文化也鼓励我们从事许多不同的工作。我在Airbnb工作了不到两年,我已经在三个完全不同的产品团队工作过。真的从来没有一个沉闷的时刻。这也可能是工作的“骗局”。因为有很多有趣的事情需要解决,我经常希望我有更多的时间来深入研究项目。我经常同时处理多个项目,当我90%完成其中一个项目时,我会继续做其他事情。来自学术界的人们在一个项目上花费数年数年而没有留下任何一块岩石(我是物理学博士学位),这是一个令人愉快但有时令人沮丧的文化转变。
问:数据科学家对AIRBNB的总体成功有多大影响?
答:非常多!作为一名数据科学家,我参与了产品生命周期的每一步。例如,现在我是搜索团队的一员。我积极参与研究和战略制定,在那里我使用数据来确定我们应该投资的领域,并提出具体的产品构想来解决这些问题。从那里,如果解决方案是提出数据产品,我可能会与工程师合作开发产品。然后我设计实验来量化产品的效果和影响,然后运行并分析实验。最后,我将学习我所学到的知识,并为下一次产品迭代提供见解和建议。Airbnb的每个产品团队都有工程师,设计师,产品经理和一位或多位数据科学家。你可以想象数据科学家对公司的影响!
问:你最常使用哪种技巧或编程语言,以及为什么?
答:在Airbnb,我们都使用Hive(类似于SQL)来查询数据和构建派生表。我使用R来做分析和构建模型。我每天都在使用Hive和R.许多数据科学家使用Python代替R -这只是我们进入时所熟悉的问题。最近也有人使用Spark来构建大型机器学习模型。我还没有机会尝试一下,但计划在不久的将来这样做。看起来非常强大。
问:什么样的人才能成为最好的数据科学家?
答:成功的数据科学家具有很强的技术背景,但最好的数据科学家也对数据有很强的直觉。不是将每个功能都投入到黑匣子机器学习模型中并看到出现的内容,而应首先考虑数据是否有意义。这些特征是否有意义,它们是否反映了你认为它们的含义?鉴于你的数据分发方式,你应该使用哪种模式?如果缺少一个值,这意味着什么,你应该怎么做呢?这些问题的答案取决于你正在解决的问题,数据的记录方式等,以及科学家寻找和适应这些不同情景的最佳数据。最佳数据科学家也非常善于沟通,其他数据科学家和非技术人员。为了在Airbnb上有效,我们的分析必须在技术上严谨,并以明确和可操作的方式呈现给公司的其他成员。
问:作为一名数据科学家,你有什么建议可以为学生做好准备?
答:除了参加编程和统计学课程之外,我建议尽一切可能让你的手弄脏并使用真实数据。如果你没有时间进行实习,请注册参加黑客马拉松或通过解决他们遇到的数据问题来帮助当地创业公司。课程和书籍对于培养基础技术技能非常有用,但是在数据集训练有素的教室中无法正确开发许多数据科学技能。
在Glassdoor在美国的50个最佳工作中,截至2018年1月,数据科学家排名第一!根据TheBurtch Works Study-Region(2017),40%的数据科学家在西海岸工作。该地区的入门级专业人员的基本工资中位数为102,500美元-比东北同行高出约13%。
数据科学家
Glassdoor
平均工资:每年120,931美元
最低:87,000美元
最高:158,000美元
PayScale
平均工资:每年$ 90,993
总薪资范围:61,927美元- 124,757美元
资深数据科学家
PayScale
平均工资:每年125,851美元
总薪资范围:87,485美元- 163,132美元
我需要什么样的学位?
从广义上讲,如果你正在考虑从事数据科学家职业,那么你有3种教育选择:
1.学位和研究生证书为你的简历提供结构,实习,社交和公认的学历。它们也会花费你大量的时间和金钱。
2.MOOC和自学学习课程免费/低价,简短且有针对性。它们允许你按照自己的时间完成项目-但它们要求ni构建自己的学术路径。
3.训练营比传统学位更强,更快完成。他们可能是由数据科学家设计的练习,但他们不会在你的名字上给你学位。
学历可能比你想象的更重要。正如Burtch Works所说,数据科学家通常拥有量化学科的研究生或高级学位。
截至2017年5月,随着The Burtch Works Study - Education的发布,90%的受访数据科学家报告获得高级学位--49%持有硕士学位,41%持有博士学位。
我需要什么样的技能?
技术能力
数学(例如线性代数,微积分和概率)
统计(例如假设检验和汇总统计)
机器学习工具和技术(例如k-最近邻,随机森林,集合方法等)
软件工程技能(例如分布式计算,算法和数据结构)
数据挖掘
数据清理和修改
数据可视化(例如ggplot和d3.js)和报告技术
非结构化数据技术
R和/或SAS语言
SQL数据库和数据库查询语言
Python(最常见),C/ C ++ Java,Perl
大数据平台,如Hadoop,Hive&Pig
像Amazon S3这样的云工具
此列表始终可能更改。正如Anmol Rajpurohit所说,“通用编程技能比任何特定编程语言的专家都重要得多。”
商业技能
解决问题-解决:明确重要的事情,接近高层挑战;采用正确的方式/方法,以最大限度地利用时间和人力资源。
有效沟通:以他们能够理解的语言向技术和非技术受众详细介绍你的技术和发现。
知识的好奇心:探索新的领域,寻找解决问题的创造性和不寻常的方法。
行业知识:了解所选行业的运作方式以及如何收集,分析和利用数据。
注意:你可以在Datacamp的信息图中查看如何成为数据科学家的便捷轨迹。此外,KDnuggets.com是大数据,机器学习和数据科学主题的重要信息来源。
BRC推出【Data Science 精英实习直通车】项目
帮助学员切身体会数据科学家的日常工作
在全职工作之前进行热身准备
提前适应真正的工作环境
领取专属 10元无门槛券
私享最新 技术干货