专栏首页大数据文摘业界 | 别跟风了!你的公司根本不需要数据科学家

业界 | 别跟风了!你的公司根本不需要数据科学家

大数据文摘出品

编译:Hope、倪倪、夏雅薇

数据科学家不是魔法师,当所需的数据不可得或者质量很差的时候,数据科学家能做的很有限,这已经超过了技术的范畴。企业管理者如果能从全局出发部署数据战略,才能真正解决当下数据科学家的痛点,这样数据科学家才能发挥作用解决公司的痛点。

大约在四年前,数据科学家成为了每个公司的必须雇的人。技术人员争先恐后地甩掉在大学用的统计课本,花大量的时间重新学习Python Pandas和R,然后恶补最时髦的机器学习理论,再买几件geek制服显得更像那么回事。我就是其中一员。

如果你是做Hadoop开发的,这也是你的黄金时代。因为大家已经达成了共识,不会map/reduce得数据科学家不是合格的数据科学家。伴随着数据科学的热潮,印度的程序员工厂推出了数以千计的Hadoop程序员和数据科学“专家”来迎接未来的“大事件”,一定程度上延长了濒临倒闭的Hadoop公司的寿命。

各大公司在第一时间都开始了对数据科学家的投入。每一家在纳斯达克指数中占有一席之地的公司都向这些数据科学家支付了巨额薪水,他们认为数据的先知力量会让他们挫败竞争对手。

而各个销售经理和高层管理只要每天早上打开iPad就能实时看到公司具体运营情况。数据仪表图成为了重要的地位象征,企业高管会获得具有3D可视化和实时动画散点图的超级豪华仪表图,而基层员工也会看到平面2D仪表盘,虽然没有那么花哨,但也会得到必要的信息和简要的摘要。

然而,这其实改变不了什么。那些数据科学家(大部分具有高学历和多年工作经验,如在制药或高级材料工程领域)将会很快意识到他们使用的数据质量其实非常糟糕。

大家普遍认为企业中存在各个环节、部门的各式各样的数据都是有用的,但是最后他们发现这些数据大部分是过时的,没有固定格式的,只能够为当时需要并收集这些数据的程序员所用。

大部分数据都是以电子表格形式储存,在没有监管的情况下多次被修改,因此与真实数据有很大偏差。很多数据集没有详尽的文档记录,表格的表头名称意义不清,比如MFGRTL3QREVPRJ,不同表格之间也没有一致的主键。换句话说,他们拥有的数据不适合做任何分析,更不要提针对药物试验的专业测试分析。

现在你拿着15万美元的薪水来做可视化仪表图,给那些根本不懂统计只想获得百万利润和巨额提成的销售经理看。你的数据一团糟,根本没法用。当你请求重建数据库时,公司陷入了挣扎,这个项目要花上百万,而他们认为没有必要。现在你面临一个选择,其实你可以撒个谎,用计算机随机产生数据,然后得到一个很可能比目前数据更加准确的结果。但是这对于数据工作者是个难题,因为这违背了他们追求精准的初衷。那该怎么办?

现在,我可以装作一个语义分析传道者,告诉你需要开发一个语义数据中心。实际上,这不是很难实现,并且是有益处的,但它并不是什么神奇的魔法。语义数据可以比较容易转化成可用的数据形式(如果没有发现有用的数据,也能发现并摒弃掉没有的部分),但本质上这不是数据科学问题——它是数据质量和本体工程问题。

好了,对于那些高层决策者,当你遇到数据上的问题,你的数据科学家可以有“万花筒”般的数据分析方法,但是没有高质量的数据做保证,得到的结果一点用都没有。巧妇难为无米之炊,这不是数据科学家的问题,是你的问题,你天天盯着那些能给你赚千万资金的可视化仪表盘,其实是看着你的钱从门前溜走。

在数据分析的项目中尽管你不是实际操作的人,但你的参与绝对不是可有可无,首先你需要明确你想要什么信息,然后花时间与数据科学家和业务人员一起确定需要收集什么数据。不要指望你想要的数据会奇迹般地从数据库中出现。

再来谈谈数据库。数据库大多是为程序员所用,写各种应用程序,它存在的首要目的不是为你的公司提供具有洞见的指导性意见。首先你要坐下来好好想想你已经有什么资源,因为要从别人那里索要数据资源是非常被动的,特别是当这个数据获得权涉及到别人的工作和职责范围的时候。

再者,你要明白大多数数据库都没有详尽的文档记录(有的甚至没有文档记录),很多信息都需要从隐藏文献中提取。这个过程被称为推理计算,很多程序员不愿意做这个事情,因为这意味着他们需要从代码去反推其他程序员的意图,而别的程序员要么已经离职了,要么能力有限,要么已经忘了他们十年前写的东西。

关系型的数据湖不能解决这个问题,数据湖唯一能够解决的问题是让计算机进程能够访问所有的数据。这是此类推理计算的必要部分,但它不是最难也不是最昂贵的部分。最昂贵的部分是弄清楚数据实际意义是什么,获得不同的数据集甚至能够识别出它们是关于同一件事的。这些问题都没有现成的解决方案,需要靠摸索。

这里,我们再次提出语义的解决方案——图形三重存储,RDF,本体管理,查询和所有内容。它不是一个开箱即用的解决方案,但它是一种工具,可以使推理分析变得可行,并且可以把这个工具交给程序员来管理。

不过,你需要经常对整个数据流的过程进行重新思考。你需要知道最开始从哪里获得信息,然后让信息尽早流入数据通道。这需要你的程序员和数据库管理员放弃一定程度的自主权,在一个集中化的环境中工作。作为执行人的你,应该更加熟悉数据治理的世界。

对于商业人士来说,这是一个相当激进的改变,不止一些人意识到他们要实际动手去解决IT问题。不过,如今的企业正在进行转变(并且大部分已经成功转型),成为专业的数据管理公司,产品和服务更像是它们的副产品。

现今CEO的角色是在管理销售的同时了解公司数据的输入与输出,确保他们的数据质量是最好的。这不仅是为了合理的监管,更因为数据的完整最终会决定他们是否能够在市场竞争中脱颖而出。

企业领导者要多与数据团队协作交流,来确定你需要知道什么,想要知道什么,什么东西是相关的,然后再来构建和你商业需求相关的数据收集过程。随意从数据库里提取一些信息来分析,只是徒增磁盘储存的成本而已,雇佣数据科学家来分析垃圾数据只能得到垃圾的分析结果。结果呈现可能很漂亮,各种渐变梯度各种三维效果,然而却毫无价值。

相关报道:

https://medium.com/@kurtcagle/why-you-dont-need-data-scientists-a9654cc9f0e4

【今日机器学习概念】

Have a Great Definition

本文分享自微信公众号 - 大数据文摘(BigDataDigest)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2018-08-03

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大咖 | 舍恩伯格:相比“新石油”,大数据更应是削弱资本的“润滑脂”

    新时代的曙光已经照耀在每个人身上:在今天的数据时代,数据的全面收集与分析,为我们提供了一个前所未有的看待现实的新视角。对整个世界的这种全新认识,无疑会让人类做出...

    大数据文摘
  • 刘晨:大数据怎能没有你--数据治理

    大数据文摘
  • 未来战争,军事大数据决定主动权

    大数据文摘
  • 投稿 | 大数据服务还是那个大数据服务吗?

    <数据猿导读> 目前“人工智能”无疑是最流行的词之一,“大数据”是自2012年以来的流行词之一,现在大大小小的企业服务、论坛上都充斥着有关大数据、人工智能的内容...

    数据猿
  • 盘点 | 10大行业大数据应用痛点及解决策略

    虽然了解大数据的价值仍然是一个挑战,但其他实践中的挑战包括资金投入和投资回报率以及相关技能仍然是大数据行业排名前列。Gartner调查显示,75%以上的公司正在...

    华章科技
  • 中科点击:大数据解决方案重在应用场景挖掘

    互联网移动互联网的高速发展,数据信息的爆炸式增长,将我们带到一个全新的大数据时代,一时间,“大数据”变成一个高大上的词汇,围绕“大数据”衍生出来的东西也越来越多...

    拼命三郎
  • 在大数据时代,每家公司都要有大数据部门吗?

    <数据猿导读> 在大数据时代,每家公司都要有自己的大数据部门吗? 结论也不能下的太武断。如果这个问题换做是:在电气时代,每家公司都要有个发电厂吗?是不是会更好回...

    数据猿
  • 这10大行业的痛点,如何用大数据解决

    大数据已经成为过去几年中大部分行业的游戏规则,行业领袖,学者和其他知名的利益相关者都同意这一点,随着大数据继续渗透到我们的日常生活中,围绕大数据的炒作正在转向实...

    钱塘数据
  • 中润普达—大数据和人工智能产业发展,离不开中文认知技术的突破

    作者:中润普达 中文语义识别技术的突破将推动人工智能产业化,从而形成可持续的大数据生态圈。 11月24日在北京召开的“2017互联网+智慧中国年会”上,中润普...

    钱塘数据
  • 深度|大数据服务及未来:人工智能+大数据生态模式

    2012年大数据是个流行词,没想到4年过后,在一些大数据论坛上还有人会说“如果我有大数据,我会怎样怎样……。”好吧,如果还停留在如果上,就不该随便上论坛演讲,讲...

    灯塔大数据

扫码关注云+社区

领取腾讯云代金券