专栏首页AI科技评论业界 | 苹果确认收购了一家斯坦福血统的暗数据分析公司

业界 | 苹果确认收购了一家斯坦福血统的暗数据分析公司

AI科技评论了解,苹果近日收购了一家数据挖掘和机器学习公司LATTICE(网址Lattice.io)。这家公司的前身是斯坦福大学计算机学院的研究项目DeepDive,主要内容是借助人工智能的方法研究和暗数据中的价值。苹果方面已经确认了对LATTICE公司的收购,并且发出电子邮件进行声明:“苹果不时收购小型科技公司,我们一般不会讨论我们收购的目的或计划。”

LATTICE公司

LATTICE公司前身DeepDive团队的领军人物是斯坦福大学计算机科学教授克里斯·雷(Chris Re)。现在LATTICE公司地址位于美国硅谷,紧贴斯坦福大学,由克里斯·雷(Chris Re)教授和密歇根大学计算机科学教授迈克尔·卡法雷拉(Michael Cafarella)共同创立。原DeepDive团队就有许多成员,并得到过包括谷歌和美国国防高级研究计划局(DARPA,Defense Advanced Research Projects Agency)在内的许多企业和机构的帮助。

DeepDive的鸣谢列表

LATTICE公司继承了原DeepDive公司对暗数据的分析处理技术,采用深度学习技术并大大提高了可用性,可以进行训练、推理和预测,最大的亮点是能够从非结构化的数据(如一般的工作文档和图片)整理出结构化数据(如SQL数据库),并把这些数据合并到现有数据库以拓展整个分析结果的深度广度。他们的技术具有入门成本低,使用者只需要考虑数据特征而不考虑算法、可以适应数据的噪音和不准确性、可以从多种数据格式提取信息、使用者可以非常简单地给与反馈和设定规则以提到特定领域内预测的准确度、高性能可拓展等等许多优点。

AI科技评论推测,苹果此举很有可能就是想要对自己的用户产生的暗数据进行分析并加以利用,作为在后乔布斯时代“满足用户需求,创造新的增长点”策略的另一项行动。

暗数据是什么?

说了半天了,暗数据到底是指什么呢?业内把它称作“暗数据”(dark data),AI科技评论看来更好的称呼是“原始数据”(raw data)。因为这里的“暗”(dark)并不是要表达“明”(light)的对立面,而是要体现数据可能是杂乱的、多种格式共存的、进行了记录但是没有派上用场的、进行分析整合总结之前的以及没有明确目的性的数据。除了传统结构化数据库(各种SQL数据库)可以直接进行信息读取、分析和推理,以及大数据可以建立模型从复杂但相关的数据中分析规律外,其它没办法直接提取信息并进行分析得到结论的,都可以称作暗数据。典型的暗数据比如,公司中存储的客户资料、服务器的日志文件、离职员工的信息、问卷调查的原始数据、按周期的财务状况表、历史邮件资料、公开的账户信息、工作产生的记事本备忘录PPT、工作报表文档的早期版本等等。

其实,目前各家企业和组织收集的所有数据中,能够直接进行结构化或者大数据分析的数据比例其实很小。多数情况下企业觉得许多类型的数据都有价值,所以花费资金人力进行了长期收集,比如收集用户使用自家产品的信息、统计内部软件开发进度、统计网站访问信息等等,之前爆出过iOS设备存储用户几个月内的GPS定位记录,其实也是觉得数据会有价值才收集的。但是由于种种原因,能真的派上用场的数据很少,根据IDC的调查数据,90%的非结构化数据都从未被分析过。那么暗数据到底有没有价值呢?

现在对它价值的认识主要有两种观点,一种观点认为不对这些数据进行分析,就没法发现其中有些重要但尚未被人注意过的机会;另一种观点是,如果这些未经分析的数据处理不当,可能会有法律和安全方面的许多问题。

正面价值的角度,企业有很大的机会可以通过暗数据获得发展业务的机会,比如:服务器的日志文件中可以读出网站访问者的行为;客户通话录音可以揭示客户的态度和感情;移动设备带来的位置数据可以提供访问模式。如果一家企业不对这些暗数据进行分析,那简直就是把机会白白丢掉了。不过同样地,企业也需要有更好的流程、协调和技术才能够正确地运用暗数据。

负面价值的角度,企业很可能记录了法律不允许记录的数据,一旦揭露出来会有很大麻烦;收集的企业内部信息可能泄露商业机密;如果丢失了用户数据,将会降低公司信誉;如果手握类似的用户数据,A公司没有进行分析,但是竞争对手B进行了分析,那么B就很有可能在接下来的竞争中取得优势。

如何处理暗数据

已经毫无疑问暗数据中存在着尚未发现的、但有正面价值的信息和泄露以后可能产生问题的敏感信息,但是实际上很少有人考虑过如何处理这些数据,更别提真的付诸行动了。这是为什么呢?

主要原因有这样几个:

1,收集数据时候优先级太单一。比如一个信用卡的市场团队只关心客户的信息和信誉度,那么它会记录客户在网上申请页面上填写的信息,但是不关心客户是如何来到这个申请页面的、客户对页面易用性的感受又如何。那么当客户整个申请流程的数据都记录下来后,能够有人愿意分析利用的只是其中很小的一部分。

2,技术和工具的限制。如果同一家企业和组织的数据收集是用不同的技术和工具进行的,那就有可能出现由于技术限制导致这些技术和工具之间没法互动的情况。这样一来数据就没办法全部联系在一起,展现出完整的状况。这件事情尤其容易发生在那些有多个IT系统和数据格式的公司身上。比如,想把呼叫中心的语音录音和网站上的浏览点击数据整合在一起就很难。数据分析项目还处在比较早期阶段的公司就会有这样的问题。

不管你觉得暗数据是机会还是麻烦,都需要想办法加以利用,虽然这并不简单。没用过的数据一段时间会显得多余;另一方面,暗数据并不会全都有用,所以你既不应该把它们全丢掉,也不应该把它当作金矿。对于普通的企业,这里有几个尽量好地利用它们的建议:

1,经常审查和整理数据库。这意味着你要把旧数据结构化或者把它分类,这样你就知道在哪里存了哪些数据。这些数据并不需要丢弃掉。现在存储空间变得越来越便宜,并不需要删除数据。但既然你已经整理过这些数据了,日后当你需要的时候可以很快找到它们。

2,用很强的加密手段加密数据。这对企业内部服务器里的数据和云存储中的数据同样重要,加密可以防止许多数据相关的安全问题发生。

3,准备好数据保留和安全丢弃措施。提前设计好数据擦除和恢复方案,避免本应消除的数据被窃取,而好的保留措施可以帮你恢复有价值的数据以便日后使用。

看来苹果已经觉得有必要对暗数据做些什么了,所以收购了LATTICE。其它手握大量数据的公司也别放松哦。

本文分享自微信公众号 - AI科技评论(aitechtalk),作者:杨晓凡

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 数据不够,是模型表现不佳的“借口”,还是真正的问题所在?

    “如果我能获得更多的训练数据,我的模型精度就会大大提高”,“我们应该通过API获得更多的数据”,“源数据质量太差,我们无法使用”。

    AI科技评论
  • 开发 | 数据预处理和挖掘究竟该怎么做?硅谷网红告诉你

    Siraj Raval 作为深度学习领域的自媒体人在欧美可以说是无人不知、无人不晓。 凭借在 Youtube 上的指导视频,Siraj Raval 在全世界吸...

    AI科技评论
  • 业界丨科大讯飞在拿大数据做什么生意

    某天,编辑看到一位同事拿着手机和电脑在“声情并茂”地朗读他自己写的稿件。 是不是太激动,觉得自己这篇可以点击量“十万+”?怀着这样的疑问,编辑听他用“湖南塑普”...

    AI科技评论
  • DàYé玩转数据战略Step By Step

    我们先看看工业革命的演进路径,从1.0的蒸汽机时代,到2.0的电力、流水线和大规模生产时代,再到3.0的计算机自动化时代,最后是4.0的智能化时代。

    曲水流觞
  • 大数据24小时 | 美国创企LogicMonitor完成 1.3亿美元融资 ,京东金融再扩版图布局车联网大数据

    <数据猿导读> 提供数据中心监测服务的美国创企LogicMonitor完成 1.3亿美元融资;东南卫视与认知数据合作,布局影视文化大数据;京东金融再扩版图,合作...

    数据猿
  • 投稿 | 现阶段我为什么不看好纯粹的数据交易?

    原力大数据创始人江颖表示,尽管大数据交易平台建设正值爆发期,数据交易号称的市场规模也在不断壮大,同时也有国家大力的政策支持。但是短期内,我仍然不看好数据交易,因...

    数据猿
  • 大数据到底应该如何学?大数据生态圈技术组件解析

    要说什么是大数据我想大家多少已经有所了解了,很多落地的案例已经深入到了我们的生活中。大数据具有数据量大、数据类型丰富复杂、数据增长速度快等特点,一切的数据分析必...

    大数据文摘
  • 数据猿专访 | 北大新媒体研究院副院长刘德寰:大数据将在公共卫生领域迎来爆发式发展

    <数据猿导读> 刘德寰教授在接受数据猿采访时说到,公共卫生跟人的生命密切关联,未来,大数据一定会在公共卫生领域有巨大的应用前景跟爆发式发展;但同时也很担忧,现在...

    数据猿
  • 盛世的阴影:大数据时代的挑战渐渐浮出水面

    数据猿导读 6月29日,由数据猿主办的金融大数据峰会在上海盛大召开,现场汇集了众多来自大数据领域内执牛耳的重量级嘉宾。大数据被誉为第四次工业革命的能源,整个产业...

    数据猿
  • 大数据基本概念

    大数据概念想必大家都不陌生,毕竟是近年来最热门的话题之一。在计算机以及互联网如此普及的今天,我们所有人每天都会在互联网上产生大量的数据,例如在淘宝浏览商品时会产...

    端碗吹水

扫码关注云+社区

领取腾讯云代金券