专栏首页AI研习社给有抱负的数据科学家的六条建议

给有抱负的数据科学家的六条建议

本文为 AI 研习社编译的技术博客,原标题 : Six Recommendations for Aspiring Data Scientists 作者 | Ben Weber 翻译 | DarrickBM 校对 | 邓普斯•杰弗 审核 | 酱番梨 整理 | 立鱼王 原文链接: https://towardsdatascience.com/six-recommendations-for-aspiring-data-scientists-93d12aeb9b9

图片来源: https://www.maxpixel.net/Art-Colourful-Gears-Creativity-Cogs-Colorful-1866468

现在数据科学的需求量很大,似乎一部分原因是因为数据科学家需要有从业经验。但其实,许多那些和我工作过的最好的数据科学家都来自不同的背景,从人类学到神经科学都有,而且要有实践经验才能脱颖而出。对于一个想转行开始数据科学生涯的毕业生或数据分析人员来说,要在这个领域做一些事来展现自己的技能是很有挑战的。我会同时站在企业招聘数据科学家的角度和求职者应聘数据科学家的角度,来谈一谈这个职业需要的几点关键经验:

  1. 亲自尝试过云计算
  2. 创建过一个新的数据集
  3. 能够将各种信息关联起来
  4. 提供一个服务
  5. 做过酷炫的可视化
  6. 写过白皮书

我将在后面详细解释以上几点。但首先,数据科学领域最关键的要义还是要能够创造出能为企业创造价值的数据产品。一个能够创造端到端数据产品的数据科学家是企业的宝贵财富,因此应聘数据科学家的时候,很必要去证明你有这些技能。

亲身尝试云计算

现在许多公司都在找有云计算经验的数据科学家,因为云平台提供的工具可以扩大数据流和预测模型的规模。未来你也可能在日常工作中用上一个云平台,比如亚马逊的AWS和谷歌云平台(GCP)。

好消息是许多平台提供了免费版从而让更多人能够了解云平台。比如AWS就有免费版的EC2实例和免费使用的服务(比如支持少量请求的Lambda),GCP则提供给用户300美元的免费额度用来试玩平台上的绝大部分功能,而Databricks则提供了社区版本的平台。虽然你不能在这些平台上免费跑大数据集,但是你可以积累在平台亲身实践的经验。

我的一个建议是你可以尝试这些平台的不同功能,去看看你是否能够用一些工具去训练及部署模型。比如我在一篇讲模型类服务的文章中,用了我熟悉的SKlearn,并且研究了如何把一个模型包装成Lambda函数。

创建一个新的数据集

在课堂上或者在数据科学比赛中,你经常需要一个干净的数据集,从而使整个项目能集中在数据探索和数据建模上。然而,在很多实际项目中,你需要做数据整理,从而将原始数据集转换成一个更有利与分析建模的数据集。通常,数据整理需要收集额外的数据集去做数据转换。比如我曾处理过美联储的数据来更好地理解富裕家庭的资产配置情况。

这是一个有趣的项目,我用了第三方数据去评估一手数据的准确性。所以我的第二个建议是进一步深入实践,去构建一个数据集。这个过程会可能包含从网站爬取数据,从数据统计网站(如steamspy)采样数据,又或者要整合不同数据源从而创造一个新的数据集。例如,我在研究生期间创造了一个星际争霸(StartCraft)比赛回放的数据集,这就能证明我有能力在一个新生成的数据集上做数据整理。

将各种信息关联起来

有一种能力我会希望数据科学家去展现:就是能将不同的组件或者系统连接起来从而完成一项任务。在数据科学家这个角色中,也许没有一个清晰的路径来使模型产品化,所以你可能需要构造一些独特的东西让系统跑起来。一个理想化的数据科学团队会有工程师来做系统搭建及运行,但是原型开发对数据科学家来说其实是一个很棒的技能,它可以让你跑得很快。

关于这点,我的建议是去尝试将不同的系统或组件整合进数据科学工作流中。这个尝试可以包含用一些工具比如Airflow去开发一个数据管道。也可以包含搭建连接不同系统的桥梁,例如我在JNI-BWAPI项目中,就开发了基于Java的接口来连接星际争霸:母巢之战的API库。或者可以包含将不同的组件整合到一个平台上,比如用GCP数据流(DataFlow)来获取BigQuery的数据然后应用到预测模型上,再把预测结果储存到云数据存储(Cloud Datastore)上。

提供一个服务

作为数据科学家,你将经常需要提供服务来让公司的其他团队使用。举例来说,这可以是一个Flask应用,用来给出一个深度学习模型的计算结果。如果你能够开发出这个服务,这意味着其他团队将能更快地使用到你的数据产品。

关于这点,我的建议是尝试使用一些工具(比如Flask或者Gunicorn)去配置web端点(endpoint),然后用Dash在Python中创建交互式的web应用。当然,在Docker中尝试配置这当中的一些服务也会对你颇有帮助。

做过的酷炫的可视化

虽然伟大的工作自然会脱颖而出,但在你解释一个分析或模型如何重要之前,仍有必要获得众人的关注。关于这点,我的建议是学习各种可视化工具来创建一个引人入胜的数据可视化。

可视化同时还能改进一系列的工作。

下面的博客展示了我作为数据科学家在过去10年中发现的一些工具和数据集。

做数据可视化的10年:

https://towardsdatascience.com/10-years-of-data-science-visualizations-af1dd8e443a7

写白皮书

在数据科学的所有技能中,有一项一直以来我都十分推荐,那就是能够通过白皮书来解释项目。白皮书是一种概要,它探讨了研究如何被应用,并提供了关于研究方法和结果的详细介绍。白皮书是为了让更多的读者一目了然地理解你的研究,并且使其他数据科学家也可以在你的基础上继续研究。

博客或其他形式的输出都可以很好地增加写作经验。我对这点的建议是尝试去面向大众写一些数据科学的文章,这样当你要表达你的想法时,你会知道如何针对不同人群阐释不同程度的细节。

结语

数据科学需要对很多工具有实践经验。幸运的是,其中越来越多的工具降低了使用门槛,并且让构建数据科学的工作组合变得越来越容易。

Ben Weber,Zynga首席科学家,Mischief顾问。

本文分享自微信公众号 - AI研习社(okweiwu),作者:雷锋字幕组

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-04-07

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 亚马逊数据专家十年经验总结:成为数据科学家的关键四步

    编者按:本文作者 Karolis Urbonas,文章选自他个人博客。AI 研习社编译。 对于数据科学家这一职业,你了解多少? ——这是个被大公司追捧的职位,供...

    AI研习社
  • 数据预处理和挖掘究竟该怎么做?硅谷网红告诉你

    Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。 凭借在 Youtube 上的指导视频,Siraj Raval 在全世界吸...

    AI研习社
  • 用小数据集进行原型设计结果的小技巧

    本文作者是 Kanda 的机器学习工程师 Daniel Rothmann,他对一切具有变革性的事物都感兴趣,这里是他在和客户合作的过程中总结出的小数据处理方法。...

    AI研习社
  • 洞察|看行业观察家和技术专家对大数据在2017年的发展预测

    又到了年终岁尾时,业界权威市场研究和咨询机构Ovum公司日前估计,大数据市场规模将从2016年的17亿美元增长到2020年的94亿美元。随着市场的增长,企业的挑...

    灯塔大数据
  • 迷失在数据堆里的中国企业

    随着信息技术的发展,大数据出镜率越来越高,几乎遍地开花,而且现在的数据不特指传统的阿拉伯数字,而是囊括了人类生活的各个方面,文字、视频、图片、私密日记、就医记录...

    机器学习AI算法工程
  • 盘点 | 10大行业大数据应用痛点及解决策略

    虽然了解大数据的价值仍然是一个挑战,但其他实践中的挑战包括资金投入和投资回报率以及相关技能仍然是大数据行业排名前列。Gartner调查显示,75%以上的公司正在...

    华章科技
  • 个推CTO安森:我所理解的数据中台

    在前面两篇文章(《数据智能时代来临:本质及技术体系要求》和《多维度分析系统的选型方法》)之中,我们概括性地阐述了对于数据智能的理解,并根据工作中团队涉及到的多维...

    AI科技大本营
  • 如何从小白成长为数据科学家

    本文是作者在赤兔APP“数据挖掘”小组内在线分享的记录的第【2】部分。 本次分享第【1】部分:什么是数据科学。 分享主题:Data Science学习分享会 分...

    叶锦鲤
  • 数据化和意义提炼将如何推动生活与商业?

    ? 我们已经毫无疑问地进入大数据时代,借助我们所有彼此互联的设备,计算机正实时捕捉并处理我们的所有细节。商家视之为“圣杯”,因为他们终于可以预测,哪些消费者将...

    机器学习AI算法工程
  • 这10大行业的痛点,如何用大数据解决

    大数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点,随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实...

    钱塘数据

扫码关注云+社区

领取腾讯云代金券