专栏首页AI2ML人工智能to机器学习Beyond Advanced Analytics: 数据智析

Beyond Advanced Analytics: 数据智析

2019年是一个神奇的一年, 一方面数据分析价值通过几次大收购深入人心,另一方面有报道说投资人开始逃离人工智能。 让人琢磨不透,隐约觉得背后逻辑是,快钱正在退出,长期投资正在落实。应该是好事!

Google以26亿美元收购数据分析公司Looker;Salesforce以157亿美元收购Tableau,并保持后者的独立运营; 伦交所宣布270亿美元收购金融信息服务公司Refinitiv;就在今天, 移动市场数据和分析领域的全球领导者 App Annie 今日正式宣布,已与移动数据分析公司Libring达成最终收购协议。

螺旋式上升, 周期性再现是大家喜闻乐见的场景, 长的有康波周期可以有50-60年,短的有猪周期2-3年,有人说人工智能也有周期20-30年。 也有人说伴随着人工智能的周期里面,知识驱动和数据驱动有点类似归纳和演绎的方式此消彼长,或许30年知识驱动为主,30年数据驱动为主,再30年又知识驱动。所谓上升就是元知识,元数据的关注越来越多。

前面我们在介绍数据分析技术的时候有提过『R语言和表数据分析』,『R语言来建立开源交互式数据分析微服务的神器』,『数据安全概述』等相关话题,有兴趣也可以看下。

Advanced Analytics: BI的下一代?

数据的重要性是一个永恒的话题,早在战国围魏救赵的故事里面,孙膑的减灶之计的成功就是建立在有能力的军队领导人物对第一手数据掌握的共识的基础上的(自从区块链到来,共识要得)。 数据和智能关联也不是第一天被重视了, 在Business Intelligence(BI)时代,数据、信息、知识和可视化已经是一个智能的过程了。

但是突然有一天,大家都说BI被Adavanced/Augmented Analytics(AA)压了一头,数据分析是未来,商业价值更大。

有人说,不过是旧瓶新酒,也有人说是数据革命。 在我看来有点像新大陆开发, 美国起来后,发展太快, 老牌英法德被压了一头。 情报时代,数据较小,较慢,牛人搞一下可视化,商业分析和决策,弄点可执行建议。 到了大数据时代, 7x24小时,海量数据,光靠人已经难以搞定。 在红军长征时代,一张报纸,几个月的大事全部清晰了。 现状天下大事读不过来,开始选择性屏蔽了。

其次,所谓革命,工业革命,电力革命,使得人的生产活动一步步脱离先天自然的限制实现无时无地的生产。 工业革命不再依赖风力,人力,马力,但是依然是谁生产谁使用。电力革命进一步分离了力的生产和使用。数据革命可能进一步分离了力(算力)的使用和收益。 你要怎么用,我帮你搞定, 至于你用好了有收益,分我一杯。 那么谁能用到更有价值,谁更容易获得力。 要实现大规模,就不能靠人,凡事实现大规模变化就是革命,星星之火,没有燎原不叫革命。

从前面的收购来看,数据分析的钱景已经被看好了。 根据周期和螺旋上升的逻辑,有必要讨论一下。下一代数据分析长啥样?就得先看下当前数据分析的问题。

Adavanced/Augmented Analytics的进展

BI时代是商业和统计人才的天下,AA时代由于AI, Big Data, Cloud的突飞猛进的发展,是的分析计算和商业价值的相对分离。 实现了很多以前看上去不容易的事情。

7x24, 实时计算,Online,Mobile, Interactive,

由于云的算力自动伸缩和IOT设备的发展使得分布的,集中的海量数据在需要计算的时候就能得到算力。传感器和边缘计算的发展是的在线分析实时报警成为可能。 同时移动设备的发展,使得随时随地可以获取到计算结果。 同时Python等脚本语言的发展使得交互式分析变得越来越流行,而GPU,智能芯片,硬件和In-memory计算等发展让相应时间变得短暂,试错成本降低。目前开源和云的趋势让这种平台能力的获取变得低价可行。 实时全天候随时随地交互式已经成为主流方向。

Descriptive + Model-Free Predictive

由于机器学习的发展使得的预测也变得非常廉价, 于是商业人士需要理解的是哪个预测是有效的,而不用去过份关心预测的实现。尤其对于试错成本可控或者较低的项目,高成本的预测反而成为负担,快速高效的试错迭代成为主流。

Complex Structure + Unstructure Data Merge,End2End

由于深度学习和云的发展,使得数据仓库不再那么重要,有个数据Lake可能就够了,并且end2end计算方式和交互能力的构建,很多情况已经不需要提前进行预处理特征提前分析。 其中复杂结构的图,序列,流等复杂结构数据再到文本,图像,视频,音频的非结构数据可以实现融合计算

数据技术创新成为主流思想

基于国家战略,媒体造势,创新需求的驱动,几乎所有行业和职业,销售,金融,客服,出行,医疗,教育,畜牧农业,市政法律等都希望通过数据驱动相关技术手段快速实现变化, 于是各级领导居安思危,面子和里子工程同时加速起来,越来越多。

Adavanced/Augmented Analytics的局限性

所谓成也萧何败也萧何,很多AA的局限性也来自于ABC领域自身的局限性。

依赖大量标注数据

最新人工智能的突破主要在监督学习,而无监督和半监督学习的突破很小, 因此很多时候说的"多少人工,多少智能"就表现在需要人工大量标记数据。

可解释性和稳定性不足

深度学习的可解释性和稳定性还有待进一步的发展,虽然很多应用更看实际结果,但是可解释性和稳定性的同时出现, 让深度学习在金融,医疗等某些领域难以起到决定性的作用。

安全问题限制数据的使用

目前数据安全问题也在突飞猛进的发展,例如多方安全计算和联邦学习等, 但是尚未出现大规模低成本的解决方案,使得部分核心数据开放使用的代价依然较高。

软硬件成本依然过高

很多高端软硬件成本依然代价不小,想实现实时计算,在线计算的投资很大,包括高性能的计算能力,传感器能力等等。

溯因分析依然很大程度依赖经验

当天因果分析的相关理论依然缺乏和没有有效融入机器学习中, 当前机器学习中的因果验证更多依赖人的经验假设。 如何让机器自动发现因果关系是极大的挑战。

Intelligent analytics: Advanced Analytics的下一代

溯因学习成为重要基础

现在descriptive和predictive已经很普及了,但是很难回答Why?

只有进一步能够回答Why,才能做到diagnostic分析,做到Causal Inference. 从而进一步实现Prescriptive分析。

最终,同时展现4个方面的分析结果,才是下一代的分析。

智能的数据关联,半监督学习和强化学习

当前虽然数据的特征提取没有那么重要了,但是数据的关联依然依赖人工, 如何解决自动从环境中找到相关数据, 然后从有限样本出发实现半监督学习, 同时根据结果继续关联有效数据达成强化学习的效果,形成一个分析闭环,是下一代数据分析要达成的效果。

自然语言交互的实时的交互式数据分析

目前基本实现实时的交互式数据分析,如果不计较成本的话。但是自然语言处理本身还没有突破,尤其在自然语言生成的方向上。 未来随着高精度的自然语言理解和自然语言生成的发展, 以自然语言交互的方式实现交互式数据分析成为可能。 使得数据分析对数据科学家的依赖跨过使用阶段。 让各行各业更直接的交互式应用数据分析。

高效的数据保护和数据分润理论和法律,让所有人即是数据的生产者也是数据利润的分享者

听上去有点想美国总统参选人杨安泽的说法, 其实还是不一样的, 只有生产者和拥有者参与利润分配是合理的,而不是所有人都可以直接参与。 但是要做到这点,有赖于数据安全工具和平台的极大突破, 以及数据分润模型和法律的成熟。 只有这样,才能极大的促进数据实现collaborative benefits。尤其以医疗数据为代表的情况。

我把上诉目标看成是数据智析(Intelligent Analytics)的核心目标。 当然也仅仅是个人的看法, 目前并没有学术和工业界的共识(又是共识),大家可以各抒己见。

数据智析的局限性

有人也问,那你说的情景是否就是万金油,银子弹?非也非也,至少有些循环永远需要人的参与的。 我大致理解就是孔子说的,不知为不知,是知也。 及时再智能的分析,也很难知道自己不知道,需要去知道。

所以提出问题的能力依然是首屈一指的! 即便下一代数据分析依然远的很!

小结:

尽管超越了Business Intelligence,当前的数据分析Advanced/Augmented Analytics(AA)依然有着非常大的局限性,下一代的数据分析已经在路上, 说不定还有30年的发展,其中很大程度上会依赖以下相关学科的突飞猛进:

1. 无/半监督学习和强化学习

2. 因果分析统计学

3. 高精度自然语言理解和生成

4. 数据安全和密码学

5. 高性能软硬件平台

6. 新型数据分润的金融和法律

本文分享自微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2019-10-01

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • R语言和表数据分析

    最近几年, 对于表数据分析有一些常见的问题, 譬如: 缺失值(Missing), 奇异值(Outlier)(参考 “一个奇异值的江湖 -- 经典统计观” 和 “...

    史博
  • 强化学习体验之小游戏 FlappyBird

    在安装完TensorFlow之后(详见” Install TensorFlow in Ubuntu 16.04.1 LTS “), 就可以测试各种深度学习的算法...

    史博
  • GMM的世界,你不懂?(下篇)

    在 GMM的世界,你不懂?(上篇) 里面简介了GMM的诞生的思绪历程, 当然是猜的啦。 这里稍微扩展点点, 说明下下GMM的广和美。

    史博
  • 转行数据分析之前,希望你能看看这篇『长文+干货』

    到了部门之后,因为日常工作更偏数据分析,所以我当时也面临和大家同样的问题。疑惑、迷茫、有力使不出来的感觉。

    知秋小一
  • 干货丨写给喜欢数据分析的初学者

    导读:在耀眼的职业光环下,数据分析师自身的成长,几乎是与孤寂相伴,在高级打杂中,锻造而成。本文是一位资深数据分析师对数据分析感兴趣的新人 Y一些建议,尽管不全面...

    钱塘数据
  • 一首写给数据分析初学者的诗……

    来自数据的力量 您好,喜欢数据分析的初学者: 十年生死两茫茫 数据人,忙忙忙 良辰美景,平添我凄凉 一天早晚闲不住 调研急 报告狂 夜来思路忽闪现 寻笔记 怕遗...

    CDA数据分析师
  • 用网卡计算,Mellanox这是要谋反吗?

    按照这个思路, Mellanox在9月3日对外发布了ConnectX-6 Dx、BlueField-2两款芯片,对外称:新一代云Smart NIC和I/O 处理...

    用户5498443
  • 数据分析之NumPy笔记(一)

    前几天群里有个大佬推荐了一门极客时间里关于数据分析的课程,教学方式是图文+音频,是我比较喜欢的教学方式之一,光看评论都能学到很多的知识,比如学习方式,对内容的理...

    佛系编程人
  • 数据化思维一

    最近在做项目时经常反思,我应该如何基于运营数据的应用,为大家的工作赋能,比如提高效率、或降低成本,或提升决策准确度,或多个优化组合。这过程中,我发现自己目前仍主...

    彭华盛
  • 大数据优势和未来影响预测

    大数据分析如今已不能再称之为新技术。大多数移动应用程序开发人员已经明白,他们需要挖掘他们的数据来积极获取日常的见解。许多大型应用程序开发企业已经意识到,要在市场...

    挖掘大数据

扫码关注云+社区

领取腾讯云代金券