行业 | 我的数据科学成果为什么无法商业化?

大数据文摘出品

编译:Charlene、涂世文、YYY

在数据科学的实践应用中,有些工作成果可以获得数十亿级的商业回报,而绝大多数的工作成果却并没有达到预期的效果。本文作者是Nick Elprin,Domino Data Lab公司的创始人兼CEO,拥有哈佛大学计算机硕士学位。他在文中探讨了数据科学工作成果不尽如人意的四个可能原因。

当前,许多公司都面临着这样的困境:把数据科学的工作成果真正转化为商业价值。

据一项涉及250位数据科学团队主管和员工们的问卷调查显示:60% 的公司计划在2018年把他们的数据科学团队扩大一倍,90% 的公司相信数据科学会带来商业创新。但是,少于9% 的公司会量化数据模型带来的商业价值,仅仅11%的公司能把至少50个预测模型投入使用。

问卷链接:

https://www.dominodatalab.com/resources/key-factors-journey-become-model-driven/

那么造成这种困境的根源是什么?一般来说,运用数据科学的公司可以分为两种:一种是把数据科学仅看作是一种技术实践的公司;另一种是把数据科学作为一个重要部分,进一步渗透到商业实践的大环境中的公司。在进行决策制定过程中,那些能够熟练地运用技术和管理实践,并且把算法驱动的决策作为业务核心的公司,往往能获得最大的商业回报。这些公司才能够被称为 “模型驱动商业价值”型公司,比如亚马逊、Netflix、Stitch Fix、特斯拉等。

当然,说起来容易做起来难。让我们来看看那些投资数据科学以求商业回报的公司们正在面对的四大挑战

团队内各自为政1+1<2

聘请数据科学家并不能保证你的公司能从中获益。对于绝大多数公司来说,根据边际效益递减规律,在已经有一个数据科学家的团队里,再额外聘用一个数据科学家,并不会有多一倍的产出。然而,少数拥有表现突出的数据科学团队的公司,会出现增加数据科学家,就能指数般提高产出的效果。

这里还有一个老生常谈的问题,那就是数据科学家们都各自为政,在独立的工作中,他们经常做重复的工作。因为他们看不到别人已经完成了什么工作,所以也没法通过继承前人的工作成果,来让自己的工作变得轻松高效。

举个例子,在一家知名保险公司里,几十名数据科学家无组织、无合作地攻克同一个商业问题,这让公司在数据科学方面的投资不值,也失去了更多本来可以用这些投资来发现的新机会。

换句话来说,一堆单单做模型的人,与一个有机结合的数据团队是有本质区别的。那些有机组合在一起的团队成员们能够熟练运用知识、技能、经验,用更短的时间,创造更好的模型,

模型部署与评估的割裂

运作良好的数据科学团队,在工作中会有持续迭代的周期(从研究到产出的循环迭代),以及对模型效果的衡量。但是,模型研究和模型部署,这两个过程经常被完全割裂。并且,当一个模型被使用后,也没有与之对应的商业效果的分析。这会导致模型没法根据商业效果迭代更新,给公司造成损失。有一家主流财务公司声称,他们“让一个模型产生效用的时间,比建造新总部大楼的时间都要长”.

工具与技术与不匹配

尽管IT部门在过去十几年的时间里,构建了用来储存和处理数据的大数据基础设施,但是这些基础设施本身并不能完全保证数据科学的成功实践。数据科学家会在一个月内使用多达3-5种不同的工具包,并时刻追赶最前沿的技术。仅在2017年,基于流行的开源程序语言Python 的软件包,就多达36万5千次更新!

另外,数据科学家的工作需要使用弹性计算平台(云计算平台)来进行具体操作实验,譬如进行深度学习就需要配备GPU的高性能计算机。如果团队不能使用弹性计算和最前沿的工具,那么团队的效率会大大下降,研究进度会拖后,最终影响整个模型的开发进程。更糟糕的是,一些大公司(比如一家全球性的银行)的新的Python数据包审批速度太慢,导致数据科学家们最终悄悄地用私人电脑来工作。这种在没有IT部门明确审批的情况下,使用新工具的现象被称为“影子IT (shadow IT)”。

模型监管缺失

生产环境中的模型如果缺乏有效的管理和监控,最终可能会产生弊大于利的后果。如果你经常监管这种在使用的模型,那么你很有可能已经意识到了这一问题。一个没有严密监控或者被密切控制的模型可能对公司的业务产生很严重的后果,譬如公司规章被无视,营业收入受损失,品牌声誉被破坏。

举个例子,一家叫做 “Knight Capital Group”的公司,在一次模型更新失误之后,在45分钟内共损失了4.4亿美金。这虽然是一个很极端的情况,但是说明了公司必须持续评估和监控他们的模型,防止模型的误用,以及模型性能的退化。

案例链接:

https://dealbook.nytimes.com/2012/08/02/knight-capital-says-trading-mishap-cost-it-440-million/

如何克服这四大挑战决定了一家公司未来5到10年发展。如果你认为自己的公司在数据科学军备竞赛中落后了,不用过分担心,并不只有你的公司是这样:根据调查显示 46% 的公司被归入“落后”这一档,40%的公司被认为“有潜力”,只有14% 的公司在管理数据科学中显示出了他们的先进性。

所幸,为时未晚。为了评估和使用数据科学带来商业价值,公司必须构建一套围绕员工、技术、工作流程的连续有效的框架。那些把时间和精力放在这个框架上,并且把数据科学作为核心竞争力的公司,能够最终收获商业回报。譬如,Netflix把模型结合到每一个业务环节中。据估计,仅个性化推荐模型就让公司的价值上升了十亿美金

Netflix案例链接:

http://www.businessinsider.com/netflix-recommendation-engine-worth-1-billion-per-year-2016-6

显而易见的是,应用数据科学产生成效并不容易。它必须克服一些明显的障碍。他们需要搞清楚怎么样开发和部署具有很大影响力的模型,并且真正地将数据科学与商业结合。最终能够克服这些困难的公司,才能够获得长久的竞争优势。

相关报道:

https://www.kdnuggets.com/2018/05/data-science-4-reasons-failing-deliver.html

原文发布于微信公众号 - 大数据文摘(BigDataDigest)

原文发表时间:2018-06-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯大数据可视化设计团队的专栏

遇见大数据可视化: 未来已来,变革中的数据可视化

今天,大数据已无所不在,并且正被越来越广泛的被应用到历史、政治、科学、经济、商业甚至渗透到我们生活的方方面面中,获取的渠道也越来越便利。

1.4K4
来自专栏智能算法

Google为何能在机器学习领域始终居霸主地位?

这不是武侠世界——她已经做到了。26岁的Holgate得到了第二条跆拳道黑带。这次是算法的黑带。Holgate花费数个星期沉浸于一个程序中,这次比肉搏更...

3449
来自专栏AI科技大本营的专栏

程序员转型AI,这里有最全的机器学习介绍+应用实例

编译 | AI科技大本营 参与 | 张子琦 编辑 | 明明 机器学习是人工智能的一个分支,已经成为当今最热门的趋势之一。据Gartner公司预测,到2020年,...

33815
来自专栏企鹅号快讯

大数据时代的10个重大变革

大数据时代的到来正在改变人们的生活方式、思维模式和研究范式,我们可以总结出10个重大变革。 NO.1目标驱动型 数据驱动 决策方式 传统科学思维中,决策制定...

1800
来自专栏AI科技大本营的专栏

医学人工智能试验的三个阶段

---- 作者: Dr Luke Oakden-Rayner 编译: AI100 原文地址: https://lukeoakdenrayner.wordpre...

42211
来自专栏AI研习社

AI 开发者高薪太诱人?请收下这份给国内开发者转型 AI 指南

如果你浏览 AI 相关的新闻,不难发现「高薪」、「百万年薪」等极具诱惑力的词汇的出现频率非常高。同样,在知乎中搜索「如何转型 AI?」、「AI 领域需要怎样的人...

882
来自专栏腾讯大讲堂的专栏

服务设计真的有用吗?

服务设计这个概念在最近几年变得非常火热,让很多人听了就觉得兴奋。总感觉作为一个设计师,如果连这个概念都不知道就已经out了。然而别人口中的服务设计,真的有传说的...

2764
来自专栏平凡文摘

从“冷板凳”到“最火专业”,人工智能掀起新浪潮

872
来自专栏PPV课数据科学社区

网络大数据的统计和分析利用

大数据给互联网带来的是空前的信息大爆炸,它不仅改变了互联网的数据应用模式,还将深深影响着人们的生产生活。深处在大数据时代中,人们认识到大数据已经将数据分析的认识...

2705
来自专栏腾讯研究院的专栏

芝加哥大学James A. Evans:大数据的大蓝图

大数据似乎在一夜之间迅速走红,它势不可挡地冲击着金融、零售等各个行业。云计算将如何改变计算的世界?未来将有怎样的应用前景?如何解决“信息孤岛”的问题?大数据...

2726

扫码关注云+社区