首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >如何成为一名数据科学家?

如何成为一名数据科学家?

作者头像
加米谷大数据
发布2019-01-09 15:16:51
3250
发布2019-01-09 15:16:51
举报
文章被收录于专栏:加米谷大数据加米谷大数据

数据科学是什么?数据分析?机器学习?还是数据工程?答案可能有很多,但也许只有直接与某个公司的数据科学家交流,才能了解该公司是如何看待数据科学的。

数据科学是一个非常抽象的概念。有些人认为它是数据分析,也有一些人认为它是机器学习,还有些认为它带有一些数据工程的味道。

构建数据科学项目

步骤一:从了解业务问题开始

如果你想要很好地证明你的概念,你需要一开始要以一个简单模型作为基准,然后从增量改善的角度来评估模型的价值。

否则,你会一直困扰于75%的准确度是否足够好这样的问题。专业学者总是会仔细检查到最后那20%,以确保结果是无懈可击的。

步骤二:制定技术计划

要站在利益相关者的角度思考。因为利益相关者最关心的未必是机器学习的误差测度,所以要学会如何将业务目标转化为价值优化问题,这一点极为关键。

在相对更先进以及更专业的机器学习领域(例如NLP和图像分类),新文章不断地发表,技术不断地更新。因此,即时了解最新和最好的研究论文是数据科学家们需要牢记的黄金准则。

步骤三:对概念进行初步验证 -> 不断迭代/验证直到成功或是无法再继续 -> 向利益相关者传达结果

步骤四:模型产品化

如果一些数据科学家告诉你必须要学会编写产品级代码,那么,他们可能需要独立处理模型产品化,而不是交给机器学习工程师或是软件工程师。

模型产品化本质上就是指不要在现有的模型输出上停滞不前。你的结果输出是产品的一部分,并且会改变用户的实际体验。甚至有时,可能会参与到软件工程师或是数据工程师的团队中。这不仅取决于工作的复杂性,还取决于服务等级协议。

沟通与问题解决

有效沟通和解决问题的技巧十分重要。如何向非技术人员的利益相关者们解释复杂的数据科学概念,是获得他们买进支持的重要环节。

如果没有数据科学家的工作经验,想要胜任这部分工作是不容易的,因为包括Kaggle项目在内的大多数实践项目都是从已经定义明确的数据科学问题开始的。

阅读一些基础书籍来熟悉商业中的通用概念和术语。另外,许多其他资深的数据科学家们都建议,如果想要进一步发展自己的商业头脑,则需要阅读一些产品管理的书籍和文章。

实践练习

hands-on exercise:

https://github.com/NFLX-WIBD/WIBD-Workshops-2018

这个项目使用WDI数据来预测业务启动成本,非常适合初学者。如果你是机器学习新人,或是刚刚完成一些监督学习的网络基础课程,这将会是一个很好的额外练习机会。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-09-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 加米谷大数据 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档