大数据虽好可也要注意这3点,不然只能叫“垃圾收集者”

多年来,在Apache Hadoop等技术的支持下,组织一直在寻求构建数据湖——企业范围的数据管理平台,允许以原生格式存储所有数据。数据湖可通过提供给一个单一的数据存储库来打破信息孤岛问题,整个组织都可以使用从业务分析到数据挖掘的所有东西。

但是,商业智能(BI)软件专家,金字塔分析公司的首席技术官Avi Perez说,他看到许多客户的数据湖正在恶化为数据沼泽——完全无法接近终端用户的大量数据存储库。

“数据库真的很贵。”Perez说,“数据湖从根本上解决了这个问题。数据湖以及所有大数据方案,都来自于市场压力,其次,现实世界的数据生成器会吐出大量的数据,你需要找到一个方法去存储它们。”

但是,尽管许多世界上最好的公司都在他们的数据湖周围建立了业务(谷歌就是一个很好的例子),但很多公司在收集了数据之后却没有任何清晰的办法来获取价值。

“他们更像是在收集灰尘。”Perez说,“也可以说在收集垃圾,一些最终都会被抛弃的垃圾。最后,你为那些东西增加了预算,却什么都不做。”

这并不是说数据湖背后的想法是糟糕的。Perez确信,所有的公司最终都需要一个数据湖。但是如何创建一个数据湖,让终端用户真正从中受益,这是需要深思熟虑的。

为了避免在自己的数据湖中溺水,Perez建议采用以下三条原则:

1、 只收集少量的数据,至少在一开始的时候。

Perez表示,组织所犯的最大的错误之一就是收集太多的数据,而其中原因仅仅是他们有这个能力。很多时候,个人也是这样。细想一下,你手机里存了成百上千张图片,有都少是自己真正想保存的 很多人没有删掉多余的图片,只是因为手机容量够大。

“你的手机上有10亿张照片,其中99%就可能是垃圾,而且在删除它们的时候还可能会有点儿舍不得。”他说,“用手机拍照很容易,基本上是免费的。你可能回想,‘有一天我会去清理它’,但只要存储容量仍然充足,就很少有人会这样做。这就叫做收集了大量的信息,却没办法有效使用它们。”

当你想要给某人看一张很有意思的照片时,就不可避免地需要往后翻阅很多张无关的照片。

Perez说,同样的事情也发生在数据湖上。在Hadoop中存储数据并不昂贵,甚至常会被认为是免费的。但是,大量累积的数据会让你很难真正地访问数据,来为自己提供有价值的信息。

“我认为,避免这种情况的方法实际上是把水龙头给关掉。”Perez说,“基于这样一种假设,仅仅是收集数据的成本很低,并不会让使用数据变得更便宜。这可能真的很贵。所以,不要总想着无休止地收集信息。把它放在一个数据集中,制定一个具体的计划,弄清楚自己该如何去挖掘它。”

2、 采用机器学习战略

即使有了一个集中的数据集,从大规模的数据中获得有价值见解也需要自动化。

“你需要一个自动化的系统来清洗数据。”Perez说,“人工智能、机器学习、深度学习,无论你想使用哪一种,都会是一个非常神奇的解决办法。我认为,从你巨大的数据湖中获取价值的最简单的办法就是,拥抱这一项新技术。”

Perez说,首先选择一个数据集,然后通过一项机器学习技术来完成它。当然,新的技术意味着新的技能、人才需求,你可以对现有员工进行培训,也可以聘请一些专业人士。

“机器学习是一门黑色艺术。”他说,“这并不容易做到,需要非常细分的技能。”

3、 确定你想解决的商业问题

所有的事情都应该是完整的:你需要从一个清晰的视角来开始你想要解决的商业问题。有了一个客观的目标,相对会更容易把你需要收集的数据和最好的机器学习技术应用起来。

例如,Perez说,可以将自己想象成一个大卖场,你决定去了解什么样的顾客会进入你的商店。你可以捕捉顾客进入商店的图片,然后使用一个复杂的神经网络(CNN)——一种擅长于计算机视觉问题的深度学习神经网络——来处理图像。CNN可以通过一个人的形象确定是男性还是女性,是孩子还是成年人,是年轻人还是老年人等等。

“一旦你完成了所有工作,就可以把它与一个商业计划联系起来,并把它交给你的业务用户。”Perez说,“这可以帮助你做出决策——‘我们需要更多地向男性市场推销,因为我们没有足够多的男性客户’。你真的需要事先有一个明确的战略,如果不这样做,仅仅是对事物的收集就会对整个过程产生巨大的负面影响。”

一旦你在头脑中建立了一个业务计划,通常就可以迭代该功能,从而为业务提供更有针对性的解决方案。例如,一旦你确定是谁走进了你的商店,你就可以用同样的能力来确定谁会走过你的化妆品柜台。

原文发布于微信公众号 - BestSDK(bestsdk)

原文发表时间:2017-07-18

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏PPV课数据科学社区

【热点】从底层到应用,那些数据人的必备技能

作者简介 潘鹏举,携程酒店研发部 BI 经理,负责酒店服务相关的业务建模工作,主要方向是用机器学习帮助业务创造价值。本文首发作者知乎,略有修改,点击底部“阅读原...

38070
来自专栏华章科技

Google IO:创新技术后的大数据

为什么这么说呢?让我们先看看公布的一款重量级产品:GoogleAssistant(谷歌助手)。和苹果的Siri、微软的Cortana、以及Amazon的Alex...

9920
来自专栏钱塘大数据

【干货】1000位产品经理推荐的数据分析书籍

世界如此喧嚣,知识何其稀少。这是一个信息爆炸的时代,被资讯洪流裹挟的我们,都养成了非常不好的思维习惯:把信息当作知识,把收藏当作学习,把阅读当作思考,把储存当作...

54460
来自专栏Java学习网

如何避免开发一款失败的产品

  “如果我问人们他们想要什么,他们会说想要一批跑得更快的马。”这句话据说是福特汽车创始人亨利•福特的名言。人们经常引用它来支持那些未经用户测试的所谓的创新。这...

30570
来自专栏大数据挖掘DT机器学习

从执行到专家,不同阶层数据分析师都在做什么呢

1数据跟踪员:机械拷贝看到的数据,很少处理数据 虽然这个工作的人还不能称作数据分析师,但是往往作这样工作的人还都自称是数据分析师,这样的人,只能通过×××系统...

35360
来自专栏云市场·精选汇

干货丨矩阵化运营,轻松提高小程序流量

目前很多头部小程序都在发展小程序矩阵化,因为单一的小程序无法形成生态,不利于长时间发展。而做矩阵的目的不只是实现精准的流量获取,更重要的一点是为了实现目标人群一...

17320
来自专栏大数据文摘

征服数据科学面试的10个小技巧(附资源)

14770
来自专栏CDA数据分析师

从执行到专家 详解数据分析师的职业层级划分

1、数据跟踪员:机械拷贝看到的数据,很少处理数据 虽然这个工作的人还不能称作数据分析师,但是往往作这样工作的人还都自称是数据分析师,这样的人,只能通过×××系统...

238110
来自专栏携程技术中心

干货 | 从底层到应用,那些数据人的必备技能

作者简介 潘鹏举,携程酒店研发部 BI 经理,负责酒店服务相关的业务建模工作,主要方向是用机器学习帮助业务创造价值。本文首发作者知乎,略有修改,点击底部“阅读原...

323100
来自专栏web前端教室

自学虽好但不要太多

image.png 有自学能力,是一项非常重要的能力。尤其在IT互联网开发领域,更是如此,它甚至比你的学校、成绩、出身更加重要。但是在快速发展的互联网行业,新的...

20870

扫码关注云+社区

领取腾讯云代金券