专栏首页机器学习与统计学机器学习:不能只靠数据

机器学习:不能只靠数据

研究机器学习,既要数据拟合,也要能解释数据。

在当前的人工智能研究社区,以数据为中心的方法占据了绝对的主导地位,并且这类方法也确实成就非凡,为语音识别、计算机视觉和自然语言处理等重要任务都带来了突破性的进展。即便如此,也一直有研究者在思考这类方法的不足之处以及其它方法的重要价值。近日,图灵奖获得者、著名计算机科学家和哲学家 Judea Pearl 发布了一篇短论文,从便利性、透明度、可解释性三个角度谈了他对激进经验主义和机器学习研究的思考。

论文链接:https://ftp.cs.ucla.edu/pub/stat_ser/r502.pdf

在这篇论文中,Judea Pearl 将沿便利性、透明度和可解释性三个维度对比用于数据科学的「数据拟合(data fitting)」与「数据解释(data interpreting)」方法。「数据拟合」方法的信念源自研究者相信理性决策就隐藏在数据本身之中。相较而言,数据解释学派却并不将数据视为唯一的知识来源,而是一种用于解读现实的辅助手段——这里的「现实」是指生成数据的过程。文章将在因果逻辑的指引下,探讨拟合与解释在任务方面的共生关系,以此让数据科学恢复平衡。

模拟进化与数据科学

我最近参加了一个讲座,演讲者这样总结了机器学习的哲学思想:「所有知识均源自所观察到的数据,有些直接来自感官经验,有些则来自通过文化或基因方式传递给我们的非直接经验。」

观众会觉得这样的称述是不证自明的,其也为该演讲奠定了基调,即可以如何通过检查数据中条件概率的模式来分析「知识」的本质。很自然,它没有涉及到「外部世界」、「理论」、「数据生成过程」、「因果」、「能动性」和「心智构造」等概念,因为从表面上看,如有需要,这些概念也能在数据中找到。换句话说,不管人类在解释数据时会用到什么概念,比如有关来源的文化、科学或基因上的概念,都可以追溯到让这些概念有存在价值的初始感觉经验并且还能从这些感官经验重新推衍出来。

从人工智能的角度看,这种以数据为中心的哲学为机器学习研究提供了一种有吸引力的乃至极具诱惑力的研究前景:为了开发人类水平的智能机器,我们应该仅遵循我们祖先获得智能的方式,将我们可能收集到的所有数据用作输入,在数字机器上同时模拟基因进化和文化进化。在极端情况下,这样的前景可能激发出相当未来主义和雄心勃勃的情形:从一个类似原始生物(比如变形虫)的简单神经网络开始,让它与环境交互,变异并产生后代,给予其足够的时间,它最终就能获得爱因斯坦水平的智能。事实上,除了神圣的经文和神明的启示,如果没有自古以来一直冲击着人类种族的原始数据流(当然也包括人类之前那些更原始的生物获得的感官输入),爱因斯坦又能从其它什么地方获得他的知识、才能和智慧呢?

在问这样的前景有多现实之前,我们先在讨论之前看两个观察所知的情况:

  1. 模拟进化,不管是哪种具体形式,事实上都引领着当前大多数机器学习研究的主要范式,尤其是那些涉及到连接主义、深度学习和神经网络技术的范式。这些技术可以部署无模型的、基于统计学的学习策略。这些策略在计算机视觉、语音识别和自动驾驶汽车等应用中已经取得了亮眼的成功。这样的成功激发了对这些策略的充分性和无限潜力的希望,同时也削弱了人们对基于模型的方法的兴趣。
  2. 以数据为中心的发展方向的思想根基深深根植于西方哲学的经验主义分支。该哲学分支认为:感官体验是我们所有概念和知识的最终来源,而「先天观念」和「理性」在作为知识来源方面仅能发挥少许作用,乃至毫无作用。经验主义思想可以追溯到古代亚里士多德的著作,但将经验主义发扬光大的则是英国经验主义哲学家弗朗西斯 · 培根、约翰 · 洛克、乔治 · 贝克莱和大卫 · 休谟以及更近期的哲学家查尔斯 · 桑德斯 · 皮尔士(Charles Sanders Peirce)和威廉 · 詹姆斯(William James)。事实上,现代连接主义已被视为激进经验主义相对于理性主义的一大胜利。实际上,在数字机器上模拟知识习得过程的能力提供了非常灵活的测试平台,可让人通过在数字机器上执行实验来评估有关经验主义和天赋能力(innateness)之间平衡的理论。

尽管测试哲学理论有其好处,但对于为机器学习研究遵循激进经验主义议程的思想,我有三个主要的保留意见。我将通过三个论点来说明为什么经验主义应该与基于模型的科学的原理保持平衡。而对于基于模型的科学,学习过程受两大信息来源指引:(a) 数据,(b) 人工设计的有关数据生成方式的模型。

我将这三个论点标记为:(1) 便利性、(2)透明度、(3)可解释性。将在下文逐一讨论它们:

便利性

进化是一个过于缓慢的过程,因为大多数突变都是无用乃至有害的,并且等待自然选择区分并从无用突变中过滤出有用突变往往也具有难以承受的成本。大量机器学习任务都需要对稀疏的新数据进行快速解读并快速响应,而这些新数据又实在过于稀疏,以至于无法通过随机突变来过滤。新冠疫情的爆发就是这一情况的完美例证:来自不可靠和各式各样来源的稀疏数据需要快速解读和快速行动,它们主要基于之前的流行病传播和数据生成模型。总体而言,机器学习技术有望利用大量已经存在的科学知识,结合可以收集到的数据,从而解决健康、教育、生态和经济等领域的关键社会问题。

更重要的是,科学知识可通过主动引导数据和数据源的选择或过滤过程来加快进化速度。选择使用哪些数据或运行哪些实验前,需要从理论上假设性地考虑每种选择会得到怎样的结果以及它们在未来提升性能的可能性。举个例子,为了提供这样的预期,可使用因果模型,其既能预测假设性操作的结果,也能预测违反事实情况地撤销过去事件的后果。

透明度

为了最终能使用世界知识(即便是自原始数据自发演化而来的世界知识),我们必须以某种机器形式对其进行编译和表征。编译知识的目的是将发现过程分摊到许多推理任务上,从而无需重复这个过程。然后,编译后的表征有助于高效地得到许多选择性决策问题的答案,包括有关如何收集额外数据的方式的问题。某些表征允许这样的推理,另一些则不允许。《为什么:关于因果关系的新科学》一书中提出的因果关系层级(adder of Causation)形式化地定义了用于回答有关假设性干预和 / 或解释以及反事实的问题所需的知识内容的类型。

知识编译涉及到抽象和重新格式化。前者允许损失信息(正如图像模型归纳为数值方程的情况),而后者会保留信息内容,只是会将一些信息从隐式转变成显式的表征。举一个经典的例子:信号波形的频谱表示。从信息角度看,前者等价于后者,但频谱明确表示了信号的特定方面。

这些需要考虑之处要求我们研究所编译的表征的数学性质、它们的内在局限性、它们支持的推理类型以及它们在得到它们期望得到的答案上的效果。用更具体的术语说,机器学习研究者也应该参与现在被称为「因果建模(causal modelling)」的研究,并使用因果科学的工具和原则来指导数据探索和数据解释过程。

可解释性

不管积累、发现或存储因果知识的方式如何,由知识推动实现的推理都要交付给人类用户并让其获益。现如今,这些用途包括政策评估、个人决策、生成解释、分配功劳和责罚或广义地认知我们周围的世界。因此,所有推理都必须用一种与人们自身组织世界知识的方式相匹配的语言进行描述,也即因果的语言。因此,不管机器学习研究者为数据拟合采用了怎样的方法,他们都必须熟练掌握这种对用户友好的语言、其语法、其普遍规则以及人们解读或误读机器学习算法发现的功能的方式。

结论

将人类知识的内容与其感官数据来源等同起来是错误的。对于知识的特征描述而言,知识存储于心智(或计算机)中的格式及(尤其是)其隐式与显式组分的平衡是与其内容或来源一样重要的。

尽管激进经验主义可能是进化过程的一个有效模型,但它对机器学习研究而言却是一个糟糕的策略。它让以数据为中心的思潮大行其道,而这一思潮当前主导了统计学和机器学习文化。这一思潮认为:理性决策的秘诀仅在于数据。

「数据拟合」和「数据解释」平衡的混合策略能更好地让我们把握进化过程所需的知识编译的各个阶段。

本文分享自微信公众号 - 机器学习与统计学(tjxj666)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2021-07-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • [译文]机器学习不是数据科学

    对于很多人来说,机器学习就是数据科学。在我这道这两个术语的含义之前,我也简单的认为数据科学只不过是机器学习一个流行的叫法而已。过了一段时间,再次考虑这个问题的时...

    小莹莹
  • 机器学习并不“万能”

    原标题 | The Limitations of Machine Learning

    AI科技评论
  • 学界 | 不!机器学习才不只是统计学的美化!

    题图上这张在社交媒体上疯狂传播的恶搞漫画博得了不少转发,这似乎暗示着,对机器学习的炒作热度开始消退。然而,机器学习真的只是被美化的统计学吗?

    大数据文摘
  • 【机器学习】不平衡数据下的机器学习方法简介

    机器学习已经成为了当前互联网领域不可或缺的技术之一,前辈们对机器学习模型的研究已经给我们留下了一笔非常宝贵的财富,然而在工业界的应用中我们可以看到,应用场景千千...

    陆勤_数据人网
  • 数学不好,Python不行,还能入门机器学习吗?

    话说有位日本网友,买了40多本数学和机器学习相关的书,愣是没有学会,直到遇到了这本,那叫一个相见恨晚呐!

    我被狗咬了
  • 机器学习提供数据防护能力

    机器学习提供大数据分析欠缺的防护功能。大数据搞定数据泄露发生的原因,机器学习则是在泄露发生时就识别出来。 网络安全专家看到大数据兴奋得双眼放光,因为这就是数据科...

    昱良
  • 玩机器学习,再也不缺数据集了

    众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞...

    统计学家
  • 玩机器学习,再也不缺数据集了

    众所周知,arXiv 是我们搜索、浏览和下载学术论文的重要工具。近 30 年来,arXiv 为公众和研究社区提供了开放获取学术论文的服务。这些论文涉及物理学的庞...

    龙哥
  • 机器学习与数据科学

    计算技术通常用来分析数据,而理解数据则依赖于机器学习。多年来,对于大多数开发者来说,机器学习却是非常遥远、一直是难以企及的。 这可能是现在收益最高,也是最受欢...

    陆勤_数据人网
  • 我数学不好,还能如何入门机器学习嘛?

    我们知道,机器学习的特点就是:以计算机为工具和平台,以数据为研究对象,以学习方法为中心;是概率论、线性代数、数值计算、信息论、最优化理论和计算机科学等多个领域的...

    abs_zero
  • 机器学习中如何处理不平衡数据?

    假设老板让你创建一个模型——基于可用的各种测量手段来预测产品是否有缺陷。你使用自己喜欢的分类器在数据上进行训练后,准确率达到了 96.2%!

    机器之心
  • 机器学习中如何处理不平衡数据?

    准确率高达 96.2% 的模型跑在真实数据上却可能完全无法使用。一个可能的原因是:你所使用的训练数据是不平衡数据集。本文介绍了解决不平衡类分类问题的多种方法。

    小小詹同学
  • 【学习】机器学习(一)让不懂机器学的人也能通俗易懂

    机器学习是什么,为什么它能有这么大的魔力,这些问题正是本文要回答的。同时,本文叫做“从机器学习谈起”,因此会以漫谈的形式介绍跟机器学习相关的所有内容,包括学科(...

    小莹莹
  • 机器学习-数据清洗(二)

    如果接触到我上面的那篇文章,机器学习-入门,应该很清楚本文意欲为何。如果不知道为什么,请阅读一下那篇文章,以便打下基础,ok,废话不多说了,进入正题。

    brzhang
  • 机器学习的数据验证

    尽管验证过程无法直接发现问题所在,但有时该过程可以向我们表明模型的稳定性存在问题。

    计算机与AI
  • 【数据挖掘&机器学习篇】

    随着互联网大数据行业的日渐兴盛,越来越多的人投身其中,也有很多的朋友对此有着浓厚的兴趣,想要投身其中。从本期开始我们将分四期带大家走进互联网大数据行业,分别了解...

    数据森麟
  • 机器学习之数据之美

    昨天看了一下机器学习的东西,发现在做特征工程时,需要用到seaborn的可视化方法。

    公众号guangcity
  • 【机器学习】如何处理数据不均衡问题

    那么如果你随便在大街上找一个人,预测他是喜欢吃梨还是苹果?肯定的,傻子都知道猜他喜欢吃梨呀。因为这样基本不用学习什么知识,就能将准确率控制在90%左右。

    zenRRan
  • 【机器学习】如何解决数据不平衡问题

    在机器学习的实践中,我们通常会遇到实际数据中正负样本比例不平衡的情况,也叫数据倾斜。对于数据倾斜的情况,如果选取的算法不合适,或者评价指标不合适,那么对于实际...

    Charlotte77

扫码关注云+社区

领取腾讯云代金券