专栏首页老齐教室数据科学:丰满的理想与骨感的现实

数据科学:丰满的理想与骨感的现实

作者:Key Terms

翻译:老齐

与本书相关的图书推荐:《数据准备和特征工程》


免责声明:本文中使用术语“数据科学家”,也包括:机器学习工程师、数据分析师、数据工程师、BI分析师等热门职位,它们可以在这里互换使用。

我期望数据科学家的潜在影响与日俱增,每个公司都应该是一个“数据公司”。

但现实并非完全如此。

我的期望从何而来?

2016年,我参加了为期12周的数据科学训练营。在这12周的训练期间,有11个项目是机器学习(ML)和人工智能(AI)方面的。此时,“机器学习”和“人工智能”在新闻中出现的次数已经创下了历史新高。特斯拉在自动驾驶汽车方面开创了新道路,甚至像通用汽车(GM)这样的老牌巨头也向一家AI公司投了10多亿美元,试图让自己跻身汽车技术的前沿。在消费层面,使用AI技术的耳机能实现自动翻译,甚至于AI击败了世界上最好的电子竞技团队。

我很希望自己的大部分时间都花在代码和数据中,从数据里面发现隐藏的模式,在生产中实施机器学习模型并对其进行优化。高管们可能会依赖我,根据我从数据中提炼出的模型制定产品路线图,我因此会受到高度重视。

然而,这些都没有发生。

在过去几年中,我担任过数据科学家、数据工程师和行业顾问。我还从数十位数据科学家和类似专业的故事中吸取了教训,积极阅读有关数据科学的文章,并在Twitter上关注了数据科学的思想领袖们。

在五花八门的表述中,我注意到了一些共同的主题。

以下是数据科学未能达到行业预期的最常见(有时是公然的)七种原因,在每个部分,我将提出一些并不非常完善的解决方案。

  1. 人们不晓得“数据科学”干什么
  2. 缺乏真正的数据科学领导者
  3. 数据科学项目不能根据规范构建
  4. 你可能是唯一的“数据人”
  5. 很难衡量你的影响力,数据并非总能产生价值
  6. 数据和基础设施存在严重的质量问题
  7. 数据科学的工作可能很不道德。

人们不晓得“数据科学”干什么

有些人认为数据科学是所有ML,AI和/或自定义算法,还有人认为就是做一些分析工作。许多数据科学家可能将大量时间花在特征提取、转换和数据加载上(简称ETL),事实是,所有这些都是可能的!

由于缺乏清晰的定义,所以找工作面试的时候,常被问到任何与数据科学相关和不相关的问题,我曾被问及AB测试、SQL分析问题、优化 SQL查询、如何在Python中编写游戏代码、Logistic回归、梯度提升树、数据结构和算法编程等问题!

某个概念如果比较泛,总会让一些人望而却步,更何况还要有一定的深度。不要灰心!期待一次令人困惑和沮丧的面试吧,因为面试的时候没有任何一个问题是为了解决实际问题的。如果你去问那些招聘经理有关细节问题、被问到的技术问题以及为什么会询问这些技术,他们同你的表现也一样。你对具体应用场景越了解,你就越能为面试准备王牌。

在工作中,你可能会被要求解决一个难题,并且参考资料很少或者根本找不到解决问题的方向。因为人们不知道数据科学的作用,所以你可能不得不涉猎软件开发、数据工程等多方面工作。如果你最终成为团队中唯一的“数据人”,可能需要在工作到来之前开始培养一批外部导师,他们可以在你进入未知水域时为你提供建议。

缺乏真正的数据科学领导者

大多数负责数据科学决策的高管都没有受过实际的数据科学理论和技术训练,相反,他们是“非数据驱动”、“即插即用”式地决策。

很少有团队拥有数据主管、数据科学经理或其他相关角色。作为一名数据科学家,不得不向专门从事产品、工程甚至其他学科的人员报告。

这些不精通数据的主管和经理通常是做出重要产品决策的人。在科技行业,自上而下的决策仍然非常普遍。你可能在会议桌上没有一个席位,或者没有得到足够的尊重来参与这些决策,你的研究可能不被重视。作为一名数据科学家,这给你带来了什么?

有这样一个例子,一位研究员花了一个多月的时间,通过定性和定量数据,研究客户中的某个特定价值。她提交了一份写得很好的、有证据支持的报告。然而,几天后,产品的主要负责人概述了团队的愿景,并提出了与研究人员的发现相反的主张。

即使你所倡导的数据科学项目获得了批准,也可能需要自己来计划和执行它,领导不太可能亲自帮助你研究和规划项目。这可能是一条非常艰难的道路,尤其是对行业中资历较浅的人来说。

3. 数据科学项目不能根据规范构建

你和同行可能对数据科学项目的潜力抱有期望,数据分析和机器学习是两种常见的项目类型。

在数据分析中,某人或你自己可能对数据有疑问,比如:有多少用户点击这个按钮;有多大比例的用户点击点击这个按钮;有多少用户根据地区或帐户类型注册了?然而,回答这些问题所需的数据可能不存在!如果数据确实存在,它可能是脏的——没有文档,很难找到,或者可能是不准确的。将这些数据用于项目中,肯定会遇到很困难!你可能会花上几个小时或几天的时间试图回答一个问题,结果却发现自己做不到。

在机器学习中,可能会要求你为消费者优化某些流程或体验,然而,有多少可能?如果有,凭经验就可以改善了!

在一个项目中,要提取新闻提要,其中包含来自一个大型社交网站的帖子——这些内容通常与用户无关。你可能已经注意到,Facebook或Twitter的新闻提要内容的排序方式,在靠近顶部的地方显示与你最相关的帖子——经过优化以使用这些内容,吸引用户点击相关内容。曾经,与我一起工作的团队被要求优化提要,然而,他们并不知道最终可以改善多少。

团队通过称为uCTR——唯一点击率的评估指标评估了优化效果,这实质上是用户点击或者评论帖子的概率。

高管们期望这种体验得到大幅改善,机器学习团队确实将指标提高了50%以上,但仅限于一小群非常投入的用户,因为他们还有别的方式提升自己在网站的使用体验。即使在ML模型实施后,大多数用户的操作体验亦如同前。

50%似乎很重要,但可能也相当微不足道,从相对变化角度看貌似很高,但仍然可能是一个很小的绝对变化。想象一下:你有10美元现金,一天后增加50%,现在有15美元现金,在绝对规模上,这仍然是一个很小的数字,只能填报一两次肚子。

由于许多机器学习项目可能无法达到团队的期望,因此大多数项目可能无法投入生产。

4. 你可能是唯一的“数据人”

企业中几乎每个团队都希望通过量化措施了解自己的进度,所有团队,无论是销售、客服、开发还是市场营销,都希望用指标和数据驱动的仪表板来衡量其有效性和进度。

大多数小微企业,很少有精通SQL、数据库、数据分析和数据可视化的员工,更缺乏分析数据、开发仪表板所必需的技能。

作为常驻数据科学家,你很容易同时被多个团队的请求淹没。准备好与这些团队进行各种沟通,如果他们的需求不属于你的实际开发序列,就要准备说“不”,我建议在项目中应用RICE优先级管理技术。

此外,您可能会很快意识到,大部分工作是重复的,虽然耗时,但“容易”。事实上,大多数分析都需要大量的时间来了解数据、清理数据并组织数据。您可能会花最少的时间做数据科学家想到的“有趣”的部分:复杂的统计、机器学习和具有实际结果的实验。

5. 很难衡量你的影响力,数据并非总能产生价值

想到两种解释本节标题的方法。

首先,数据科学家通常处于“支持”角色,大多数组织常常是依靠过去的经历和阅读过的东西,直觉地做出决策,而不是依据数据科学家的分析。如果你能找到一个不是这样的中小型组织,我会感到很震惊。一般来说,要想在商业上取得成功,必须果断,而非谨小慎微。作为组织中的数据科学家,是否在业务中占据至关重要的位置?可能不是。生意要持续下去,没有你也能生存。销售仍将进行,功能还要开发,客服依然处理各种客户问题,……。

刚开始的时候,我以为我会作为“看门人”,帮助证明商业决策的合理性,从而会被重视。然而,这种情况很少发生。DJ Patil,前白宫首席数据科学家,曾经在播客节目中指出,作为数据科学家,你应该努力找到一个在工作上非常有价值的场景!很难从外部找到这种工作,但在内部,你可以为利益相关者的决策提供证据,在这方面有所突破!

通常在公司扮演“支持”角色的另一个挑战是很难量化你的影响。一项常见的数据科学任务是帮助产品经理回答最近某些活动的问题,还可以根据你的见解发布对产品的建议。那又怎样?你如何衡量你的作品是否有影响?

很难做到,大多数人不会把价格或价值放在分析上。

你为销售团队做了数据分析,让他们避免了庞大而昂贵的新工作流程,公司从而节省了1000万美元。说实话,这样做,1000万美元就“从未花掉”,有人会珍惜这1000万美元吗?

在工作中,我建议你很好地记录你的工作,并根据员工薪资、资本投资、机会成本等因素计算分析,这些分析将在以后派上用场。

我意识到实际的分析是具有挑战性的,我说过一个数据科学经理,他和他的团队要在这方面做得比较好,必须向他人寻求帮助,以便更好地进行分析。

6. 数据和基础设施存在严重的质量问题

在数据科学书籍、在线课程和Kaggle竞赛中,所面临的问题与行业中实际存在的问题完全不同。

这些在线资源,有训练好的数据,这些数据很容易获得,有良好的文档记录,并且有良性的结构,这使你能够应用数据科学技术来回答问题。

关于实际工作中的数据质量,我经常把它比作一个被撕开的垃圾袋,里面的东西洒得满地都是,而你的伴侣要求你去找一个意外掉在里面的漂亮的耳环。从本质上说,这些数据很难找到,文档记录也很差,或者根本没有文档记录。数据也许是以非结构化格式显示,比如复杂的JSON、带有标点符号的文本、表情符号。此外,似乎有用的数据可能被证明是转移注意力的东西。

就像那句著名的谚语说的,“垃圾进,垃圾出”。如果你没有高质量的数据,你很可能不会产生一个高质量的输出来满足你的利益相关者的期望。

★《数据准备和特征工程》一书专为解决现实中数据问题而作。 ”

清理数据可能成为你的主要工作。2016年,受欢迎的、专注于机器学习的公司Crowdflower对经验丰富的数据科学家进行了一项调查,结果显示,在我们调查的数据科学家中,每5人中就有3人花在清理和整理数据上的时间最多。在很多情况下,数据科学家应该被称为数据管理员。

注意,如果将大部分时间花在数据清理上,那么用于编码、研究ML和进行分析的时间就所剩无几了。

除了脏数据之外,另一个主要的挑战是处理基础设施差的数据。想象一下,一条繁忙的高速公路上坑坑洼洼、收费站林立,交通繁忙。你的工作是在这些危险的环境中行驶,在最后提供数据结果。

你可能会遇到一个没有为所需查询进行优化的数据库,或者无法通过其历史数据来识别数据的真实来源。可能要等上几天或几周才能访问数据库,或者被糟糕的基础设施卡住,因为人们害怕改变它,害怕破坏一切!可能没有集中的数据存储,使用多种工具艰难地查找信息,也没有对过去数据科学工作结果的存储。

2012年我在Target工作的时候,员工们会提前上班——通常是在早上7点左右——以便在其他人很少的时候查询数据库。他们希望能更快地得到查询结果,然而,他们仍然常常要等几个小时才能得到结果。交通堵塞是真的!

甚至我在大型科技公司的朋友也抱怨过同样的数据基础设施和技术债务问题。一个朋友不得不在周六来上班,只是为了能够查询数据的时候快一些,减少等待时间。

想象一下,你兴冲冲地想要研究某些数据,却不得不等上几个小时!然后,假设您在SQL查询中犯了一个错误,必须重新实现它,并再次等待几个小时!这实际上是整整花费了一天的时间,甚至没有得到数据。

在实际工作中,如果你知道有这些糟糕的基础设施,尽早告诉你的经理,并详细地地记录各种问题,尝试多种方法,以及求助其他团队,来帮助解决问题!我也鼓励你学习更多的开发技能。

7. 数据工作可能很不道德。

这是我最担心的事情。我听说过收集和分析私人用户数据的不正当做法,从私人信息到在应用程序上的每一次互动,都可能被收集。作为一名数据科学家,你可能不会接受这种行为,但对有关产品的决策也没有发言权。

优步(Uber)因一款名为Greyball的秘密内部工具而臭名昭著,该工具是为逃避执法而设计的,它可以帮助识别各城市的执法官员,并为他们提供一个假的优步体验,向乘客展示,但没有人会接他们。如果你是负责预测谁是执法官员或编写核心程序算法的数据科学家,你会怎么做?你愿意做吗?

来自机器学习模型的推荐也可能不道德。我曾经参与过一个项目,根据消费者的消费习惯,用机器学习模型向消费者推荐商品,但这些预测是在建立在了一个有问题的模型训练上,所用数据中几乎没有有价值的东西。后来,付费用户抱怨这些推荐有多差,但该公司从未公开道歉。

或许有一天,一家电子商务公司会以数据科学家的身份问你:如果我们想知道一位客户是否怀孕了,即使她不想让我们知道,你能做到吗?这正是几年前在Target时对一个人说过的话!但搞清楚这一点有什么伦理意义呢?作为一个消费者,你希望你和你的家人被商家以这种方式营销吗?如果另一半不知道对方是否怀孕了怎么办?如果他们正在考虑堕胎呢?在公司,尤其是小公司,这些道德问题可能不会被考虑进去。

结论:如之奈何?

我不想阻止大家申请数据科学的工作,这些工作能够为公司贡献难以置信的价值。

相反,试着在面试中询问这些问题,以帮助你评估相应的职位。如果你在工作中已经面临这些问题,与你的经理或同事一起努力尽快解决它们,以改善你的工作。

原文链接:https://dfrieds.com/articles/data-science-reality-vs-expectations.html

本文分享自微信公众号 - 老齐教室(itdiffer),作者:老齐

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2020-04-16

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 开启数据科学之旅

    不是很久以前,商人们往往找占星家来预测下明年是否能挣钱,虽然这毫无根据,并且结果也不确定,但如果听专家的建议来为自己的商业行为作出决定,与此有什么本质却别?现在...

    老齐
  • ​Python中的正则表达式(三)

    * 在正则表达式中表示匹配0个或者多个字符,例如a*,就表示匹配0个或者更多个字符a,例如可以匹配空字符串、a、aaa等等。

    老齐
  • 写给小白:K近邻算法入门

    本文的代码,均发布到百度AI Studio的在线平台中,关注微信公众号「老齐教室」,并回复:#真实姓名+手机号+‘案例’#,申请加入含有苯问案例的《机器学习案例...

    老齐
  • 思考 | 从百度医疗竞价说起,大数据需要科学和正直的品格

    最近几天,一篇“一个死在百度和部门医院之手的年轻人”的新闻刷爆网络,又一次将百度的医疗竞价排名推到了风口浪尖。 大数据是新出现的事物,作为一门深刻洞察社会规律...

    灯塔大数据
  • 【BDTC 2015】大数据分析及生态系统分论坛:HBase、Spark、ES、Kylin技术生态

    2015年12月10-12日,由中国计算机学会(CCF)主办,CCF大数据专家委员会承办,中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办,...

    CSDN技术头条
  • 数据科学中的强大思维

    人类擅长在所有的事物中寻找对应的模式。真模式,假模式,命名的模式。我们是那种能在薯片上找到猫王的脸的生物。如果你倾向于将模式与洞察力等同起来,请记住有三种数据模...

    AiTechYun
  • 数据分析:数据采集是根基

    数据传输,指的是数据以何种方式流入到存储介质,比如日志是通过logstash还是filebeat采集到kafka的,前端的操作记录是通过http请求发送的

    kk大数据
  • 荐读|我国的大数据战略与“一带一路”的完美融合

    一 我国的大数据战略 近年来,对大数据的定义较为多样。第462次香山会议 (2013年5月29日—31日)提出了大数据通俗的定义:大数据是数字化生存时代的新型...

    灯塔大数据
  • 利用大数据精准营销,给消费者一个选You的理由!

    【数据猿导读】大数据是社会科学重要的进展,但企业要精准抓住未来,经理人要拥有更好的决断力,还是要基于对不同人、不同性的理解,而不仅是科技工具的使用而已。

    数据猿
  • 奉送9个重磅PPT:来自2015中国互联网大会-大数据应用论坛

    大数据文摘

扫码关注云+社区

领取腾讯云代金券