业界 | 苹果确认收购了一家斯坦福血统的暗数据分析公司

AI科技评论了解,苹果近日收购了一家数据挖掘和机器学习公司LATTICE(网址Lattice.io)。这家公司的前身是斯坦福大学计算机学院的研究项目DeepDive,主要内容是借助人工智能的方法研究和暗数据中的价值。苹果方面已经确认了对LATTICE公司的收购,并且发出电子邮件进行声明:“苹果不时收购小型科技公司,我们一般不会讨论我们收购的目的或计划。”

LATTICE公司

LATTICE公司前身DeepDive团队的领军人物是斯坦福大学计算机科学教授克里斯·雷(Chris Re)。现在LATTICE公司地址位于美国硅谷,紧贴斯坦福大学,由克里斯·雷(Chris Re)教授和密歇根大学计算机科学教授迈克尔·卡法雷拉(Michael Cafarella)共同创立。原DeepDive团队就有许多成员,并得到过包括谷歌和美国国防高级研究计划局(DARPA,Defense Advanced Research Projects Agency)在内的许多企业和机构的帮助。

DeepDive的鸣谢列表

LATTICE公司继承了原DeepDive公司对暗数据的分析处理技术,采用深度学习技术并大大提高了可用性,可以进行训练、推理和预测,最大的亮点是能够从非结构化的数据(如一般的工作文档和图片)整理出结构化数据(如SQL数据库),并把这些数据合并到现有数据库以拓展整个分析结果的深度广度。他们的技术具有入门成本低,使用者只需要考虑数据特征而不考虑算法、可以适应数据的噪音和不准确性、可以从多种数据格式提取信息、使用者可以非常简单地给与反馈和设定规则以提到特定领域内预测的准确度、高性能可拓展等等许多优点。

AI科技评论推测,苹果此举很有可能就是想要对自己的用户产生的暗数据进行分析并加以利用,作为在后乔布斯时代“满足用户需求,创造新的增长点”策略的另一项行动。

暗数据是什么?

说了半天了,暗数据到底是指什么呢?业内把它称作“暗数据”(dark data),AI科技评论看来更好的称呼是“原始数据”(raw data)。因为这里的“暗”(dark)并不是要表达“明”(light)的对立面,而是要体现数据可能是杂乱的、多种格式共存的、进行了记录但是没有派上用场的、进行分析整合总结之前的以及没有明确目的性的数据。除了传统结构化数据库(各种SQL数据库)可以直接进行信息读取、分析和推理,以及大数据可以建立模型从复杂但相关的数据中分析规律外,其它没办法直接提取信息并进行分析得到结论的,都可以称作暗数据。典型的暗数据比如,公司中存储的客户资料、服务器的日志文件、离职员工的信息、问卷调查的原始数据、按周期的财务状况表、历史邮件资料、公开的账户信息、工作产生的记事本备忘录PPT、工作报表文档的早期版本等等。

其实,目前各家企业和组织收集的所有数据中,能够直接进行结构化或者大数据分析的数据比例其实很小。多数情况下企业觉得许多类型的数据都有价值,所以花费资金人力进行了长期收集,比如收集用户使用自家产品的信息、统计内部软件开发进度、统计网站访问信息等等,之前爆出过iOS设备存储用户几个月内的GPS定位记录,其实也是觉得数据会有价值才收集的。但是由于种种原因,能真的派上用场的数据很少,根据IDC的调查数据,90%的非结构化数据都从未被分析过。那么暗数据到底有没有价值呢?

现在对它价值的认识主要有两种观点,一种观点认为不对这些数据进行分析,就没法发现其中有些重要但尚未被人注意过的机会;另一种观点是,如果这些未经分析的数据处理不当,可能会有法律和安全方面的许多问题。

正面价值的角度,企业有很大的机会可以通过暗数据获得发展业务的机会,比如:服务器的日志文件中可以读出网站访问者的行为;客户通话录音可以揭示客户的态度和感情;移动设备带来的位置数据可以提供访问模式。如果一家企业不对这些暗数据进行分析,那简直就是把机会白白丢掉了。不过同样地,企业也需要有更好的流程、协调和技术才能够正确地运用暗数据。

负面价值的角度,企业很可能记录了法律不允许记录的数据,一旦揭露出来会有很大麻烦;收集的企业内部信息可能泄露商业机密;如果丢失了用户数据,将会降低公司信誉;如果手握类似的用户数据,A公司没有进行分析,但是竞争对手B进行了分析,那么B就很有可能在接下来的竞争中取得优势。

如何处理暗数据

已经毫无疑问暗数据中存在着尚未发现的、但有正面价值的信息和泄露以后可能产生问题的敏感信息,但是实际上很少有人考虑过如何处理这些数据,更别提真的付诸行动了。这是为什么呢?

主要原因有这样几个:

1,收集数据时候优先级太单一。比如一个信用卡的市场团队只关心客户的信息和信誉度,那么它会记录客户在网上申请页面上填写的信息,但是不关心客户是如何来到这个申请页面的、客户对页面易用性的感受又如何。那么当客户整个申请流程的数据都记录下来后,能够有人愿意分析利用的只是其中很小的一部分。

2,技术和工具的限制。如果同一家企业和组织的数据收集是用不同的技术和工具进行的,那就有可能出现由于技术限制导致这些技术和工具之间没法互动的情况。这样一来数据就没办法全部联系在一起,展现出完整的状况。这件事情尤其容易发生在那些有多个IT系统和数据格式的公司身上。比如,想把呼叫中心的语音录音和网站上的浏览点击数据整合在一起就很难。数据分析项目还处在比较早期阶段的公司就会有这样的问题。

不管你觉得暗数据是机会还是麻烦,都需要想办法加以利用,虽然这并不简单。没用过的数据一段时间会显得多余;另一方面,暗数据并不会全都有用,所以你既不应该把它们全丢掉,也不应该把它当作金矿。对于普通的企业,这里有几个尽量好地利用它们的建议:

1,经常审查和整理数据库。这意味着你要把旧数据结构化或者把它分类,这样你就知道在哪里存了哪些数据。这些数据并不需要丢弃掉。现在存储空间变得越来越便宜,并不需要删除数据。但既然你已经整理过这些数据了,日后当你需要的时候可以很快找到它们。

2,用很强的加密手段加密数据。这对企业内部服务器里的数据和云存储中的数据同样重要,加密可以防止许多数据相关的安全问题发生。

3,准备好数据保留和安全丢弃措施。提前设计好数据擦除和恢复方案,避免本应消除的数据被窃取,而好的保留措施可以帮你恢复有价值的数据以便日后使用。

看来苹果已经觉得有必要对暗数据做些什么了,所以收购了LATTICE。其它手握大量数据的公司也别放松哦。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2017-05-14

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏TAPD

程序员和产品经理总掐架怎么办?| TAPD经验谈

 导读  ? 程序员和产品经理,这回真的打起来了! 相信昨天你一定被这则消息刷了屏,程序员和产品经理,似乎天生就是相爱相杀的存在。 说了这么多,到底该怎样优...

912
来自专栏Miguel三先生

撕逼大会之需求评审

1393
来自专栏JAVA高级架构开发

所有程序员都要注意,往后工作会越来越难找

最近传的轰轰烈烈的裁员潮,想必大家都有耳闻了,各个公司缩进开支,不但减少人员招收,而且还裁员,这无疑给我们程序员在敲着一个警钟,互联网的寒冬真的来了

662
来自专栏PPV课数据科学社区

☞【观点】成为“大数据企业”,献给不懂数据挖掘的你

文|郭迅华:清华大学经济管理学院副教授 一家中等规模的百货商场,通过视频监控记录下商场各个区域的客流人数,从而评估每天各个时段客流的在店时长,进而结合销售记录...

3397
来自专栏python开发者

软件测试行业趋势分析和思考

软件测试行业趋势分析和思考  (源文件地址:https://github.com/zhengwh/share-tech/blob/master/dev/the-...

2165
来自专栏测试开发架构之路

软件测试行业趋势分析和思考

软件测试行业趋势分析和思考 1   绪论 本文先对互联网对时代和社会变革进行了论述,然后再由互联网时代对软件工业模式变革进行了介绍,最后引出附属于软件工业的测试...

33311
来自专栏镁客网

艾拉比芮亚楠:当OTA普及,我们将在物联网和车联网看到三个变化 | 镁客请讲

1140
来自专栏JAVA高级架构开发

所有程序员都要注意,往后工作会越来越难找

最近传的轰轰烈烈的裁员潮,想必大家都有耳闻了,各个公司缩进开支,不但减少人员招收,而且还裁员,这无疑给我们程序员在敲着一个警钟,互联网的寒冬真的来了

750
来自专栏腾讯社交用户体验设计

ISUX 2019 校园招聘专属通道

? 腾讯ISUX isux.tencent.com 社交用户体验设计 ? ISUX校园招聘2019专属通道 ? ISUX2019年秋季校园招聘正式启动,爱设...

701
来自专栏CDA数据分析师

【系列文】数据分析在互联网金融风险管控的应用!

从今天起,小C会开始每天推送一篇数据分析在各个行业的应用。大家有好的文章也欢迎推荐给我们。共同学习,一起进步。 1 “失控”体系下的互联网金融 互联网的快速发展...

1868

扫码关注云+社区