如何实现数据分析的工业化?

导读:顾名思义,工业化意味着自动化,能够实现事半功倍的效果。以前,农民用牛犁一块地需要花费几天时间,但现在用拖拉机只需要几个小时。同样,现在企业可以也用先进的算法“耕耘”大片的“数据田地”。为了更好地利用大数据的体量、速度和多样性,让大数据为自己服务,企业需要流程、结构和透明度,而工业化提供了这三样东西。

全文较长,建议阅读时间4分钟。 往期回顾:一张图了解数据分析/挖掘的精髓

为了更好地利用大数据的体量、速度和多样性,让大数据为自己服务,企业需要流程、结构和透明度,而工业化提供了这三样东西。如果你真的想从数据中提取价值,并使你的公司像一台润滑效果良好的机器那样顺畅运转,你必须具备规模化的能力,但规模化的能力是大数据最大的难题之一。

只要那些流程的设计和实施做到了着眼全局而非各自为政,当分析得到了带动和长期持续下去的保证时,所谓的“工业化”便已成形。而这就是所谓的分析运维(Analytics Ops),在数据科学领域又被称作为开发运维(Dev Ops)。

把见解作为可交付产品的工厂也许是对此更恰当的比喻。例如,设想有一条流水线,使你可以进行数据的收集、整理、分类,准备好供建模、分析和产生见解所用。这就是我们正在迈进的方向吗?是的。这是必要的吗?没错。原因在于,为了更好地利用大数据的体量、速度和多样性,让大数据为自己服务,企业需要流程、结构和透明度,而工业化提供了这三样东西。如果你真的想从数据中提取价值,并使你的公司像一台润滑效果良好的机器那样顺畅运转,你必须具备规模化的能力,但规模化的能力是大数据最大的难题之一。工业化是解决之道。工业化的基本定义就是堪称革命性的规模化能力,而规模化几乎总是意味着使向来手动完成的工作自动化。流水线就是明显的例子。

流水线方法的基础是建立一套支持数据分析的流程。这是一种协作的方法,需要跨职能合作和C级高管努力推动公司上下参与其中。但从数据中获取见解的流程如何实现自动化?

让我们来看看制造业的工业化,这是流程的最初起源。多年来,生产经理强调质量控制和流程改进。如果想使数据分析工业化,就需要对数据分析及受其驱动的经营活动采取同样的质量控制措施。你制定的任何解决方案都应该考虑以下几点:

1. 数据管理:这里涉及的考虑是,数据科学家在创建分析数据集时,应该确保数据一脉相承,提供适当的治理,避免陷入不可识别资产的数据沼泽。应同样对待的还有文档、记录、代码、数据样本、修改日志,以及确保资产整理妥当,可随时用于消费。

2.开发:这里指的是将跟可视化和数据浏览界面一起整合进同一工作台的建模工具。再有就是知识管理,要通过这种方法来存储你正在创建的模型的信息。

3.部署:这部分涉及到生产模型的创建,而这些模型将在以后用在经营活动中。对此需要模型管理,比如维护版本历史信息,训练数据集以供审核,以及推广模型的相关流程。还应该着重强调效率和受控执行。数据平台为分析处理的工作提供了很多选择,但必须保证模型被部署到另一个平台上时,业务逻辑依然如昔。

4.维护:操作系统堪称流程的“书立”。你最初从应用系统获得数据,你的分析则是最终交付产品,将被应用和操作流程所使用。由于这些流程所固有的操作依赖性,因此应该实行严格的路径规定,包括为所有的活动创建操作日志,以及在发生模型偏移时记录异常情况。

随着数据和分析工具的激增,企业将继续寻求庞大数据集的力量,因为有数据就有见解,有见解就有价值。但想要做到这一点,就必须把工业化的准则融入到数据分析中。

只要那些流程的设计和实施做到了着眼全局而非各自为政,当分析得到了带动和长期持续下去的保证时,所谓的“工业化”便已成形。而这就是所谓的分析运维(Analytics Ops),在数据科学领域又被称作为开发运维(Dev Ops)。凭借数据分析的工业化改造,只要处理速度达到了一定水平,企业就能降低成本,加快创新,为市场带来新的能力。

作者:车品觉

原文发布于微信公众号 - 钱塘大数据(qtbigdata)

原文发表时间:2016-11-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏人称T客

应对IT界并购你不得不做的10件事

最近企业并购市场很疯狂,动不动就听说又哪家企业被整体吞掉了。一场合并或者收购可以引发一场IT部门的众多复杂问题的“雪崩”。这里有10个技巧来帮助你最小化这个问题...

28770
来自专栏数据和云

打造运维大脑:翼支付高速发展背后,甜橙金融的云化智能演进

不久前,在由ACOUG与云和恩墨主办的2018数据技术嘉年华的金融科技实战分论坛上,甜橙金融分享了其云化变革的成功经验。

11530
来自专栏人称T客

Gartner:十大安全发展趋势预测

关键词:安全,漏洞管理,数据,IDaaS,CASB,物联网 薄弱的内部代码、云环境下数据以及物联网将成为下一阶段攻击活动的主要对象。 IT 安全人员需要更好地...

48120
来自专栏云计算D1net

人们关于云安全的关注并没有太多改变

行业专家Sue Marquette Poremba 关注网络安全已有十年时间,一直在撰写关于云计算安全的问题。十年前,企业对于采用云计算犹豫不决,因为面临很多问...

35470
来自专栏BestSDK

APM 这款SDK能给你的应用带来哪些好处?

精彩内容 APM这个词在2015年很火,国内三家领军企业中的云智慧和OneAPM拿到了新一轮融资,而听云则成功登陆新三板,短短一年的时间里原本稳步发展数年的AP...

351100
来自专栏程序员的知识天地

2018年IT行业薪资大揭秘:程序员平均薪资1万5, 你拖后腿了吗?

正值求职高峰期,现在就业形势较好和较差的行业分别是哪些?哪些地区用人需求大?又有哪些地方就业竞争激烈?这份报告快来了解一下!2018年IT行业薪资大揭秘: 程序...

2.5K10
来自专栏大数据文摘

机器学习与人工智能将应用于哪些安全领域?

20170
来自专栏养码场

一周播报|一本顶级好书安利给各位JAVA

我觉得以后会出现一套家庭智能互联接口规范,任何开发的家用物联设备都能自动去匹配互联这个规范体系内的产品。但是这种设备成本主要在开发上,如果大量生产成本不会很高。...

8030
来自专栏lx的专栏

确保数字经济的企业

在数字业务中,连接技术和物联网等集成设备是推动公司走向新的商业模式和更好的结果的燃料。数据对这些公司的进攻和防守都起到了作用,使它们能够领先于竞争对手。然而,高...

28360
来自专栏云计算D1net

传统IT七大职业的云计算转型之路

如今,企业上云已经成为不可阻挡的趋势,云计算这项技术已像水电一般被人们所利用。 毫无疑问,对于那些传统IT技术——企业架构师、系统管理者、测试验收工程师或者网络...

41580

扫码关注云+社区

领取腾讯云代金券