全面理解奥卡姆剃刀原则——兼论常识获取和推理的发展方向

奥卡姆剃刀原则是科学方法论当中的一条重要的原则, 以往对奥卡姆剃刀原则的内容阐释,主要可概括为八个字:“如非必要,勿增实体”。 看起来这八个字简单明了,但是真正理解对了、用对了是不容易的。首先我们要了解:奥卡姆剃刀既不是真理,也不是事实,只是一种科学共同体约定的行事方式。 不符合奥卡姆剃刀的结论,内容虽不一定是错的,但程序肯定是不妥的。比如,断言外星人的存在,在现阶段并没有充分的证据。但反驳任何外星人的存在,也没有任何经得起推敲的成熟理论。如果因为不能举证外星人不存在就在没有足够证据的情况下承认外星人存在,这显然是不合适的。 符合奥卡姆剃刀原则的结论,内容有可能是错的,但却是在当前证据条件下最合情合理的。比如,在天文观测能力还不发达的年代,人们只能观测到太阳系有六大行星。在那样的证据条件下,如果谁说太阳系还有第七、第八个行星,那只是瞎蒙。后来观测能力发达了,利用摄动现象推测未知行星位置的理论也成熟了,第七、第八个行星存在的确凿证据也出来了,这时再修改原来的结论,追认第七、第八个行星的存在的结论在内容上的正确性,也是正常的。但是,不能因为证据条件变化了,碰巧当初没有证据支持的瞎蒙应验了,就追认其当初的程序正当性。没有证据支持的瞎蒙永远是程序不正当的。 之所以如此,在逻辑上是由“有”和“无”的证明(含证实/证伪)难度不对等引起的。“有”是存在命题,举出正例即可证实,但对其证伪却相当于证明全称命题;“无”是全称命题,举出反例即可证伪,但对其证实却相当于证明全称命题。我们都知道,除数学和形式逻辑这样的演绎科学外,在包括物理、化学在内的广大经验科学领域,并无先验的全称命题可以依靠。如果把举证责任强加给需要证明先验全称命题的一方,就意味着无凭无据的“有”不能被他人证伪,而合情合理的“无”却不能被自己证实。这在科学方法论上是有失公允的。所以,对无凭无据的“有”进行方法论上的限制,对合情合理的“无”进行方法论上的保护是十分必要的。奥卡姆剃刀原则于是应运而生。 在奥卡姆剃刀原则下,主张“无”是无需举证的,主张“有”是必须举证的。主张有,就好似法律上的“有罪推定”,你必须自证清白。这一原则,勒紧了科学野马的缰绳,使声称的“科技创新”含金量得到有效的提升。科学的金字招牌之所以好使,之所以令人趋之若鹜,跟奥卡姆剃刀这个“门神”的严苛把关是分不开的。但是奥卡姆剃刀原则本身不是教条也不是真理。它是可以随着证据的积累和获取证据手段的提升而修正自己的守门标准的。原来不该放行的结论,不排除以后可能被放行。 但是,对“如非必要,勿增实体”这八个字,如果缺乏全面准确的理解,也容易滑到错误的方向上去。从数理逻辑的观点看,不仅实体词有可能断言新实体的存在性,函词也有可能断言新实体的存在性。问题,恰好出在函词上。 比如著名的皮亚诺算术公理,里面有一个“后继函数”,它的值是自变量加1。所以,有了这个函数,只要确立了0的存在,就可以推出“0的后继”即1的存在,继而可以推出2、3等其他自然数的存在。因此,“后继”这个函词,是派生无数新实体的潜在源泉。只关注实体词是不够的。如果只承认0的存在,皮亚诺公理体系就将是一个矛盾的公理体系,无法承载算术的内容。 再举一个日常生活的例子。一个人的“标配”是有两只手。你不能因为号称坚持奥卡姆剃刀原则,就把手的个数无缘无故地减到1或者0,除非有证据说明这个人的手被剁了或者有类似的遭遇。一个人的标配可以覆盖得很全,从五官四肢,到五脏六腑等等。有性别、年龄、种族、职业等差异的地方,标配还有额外的不同。引用这些“标配”,用自然语言说起来,一个“的”字就解决了,但是定义和获取这些标配,却要花费无数的笔墨——一个标准化的“人”到底有多少项标配,怕是生理学家也难说全呢。我们不说细节,只说一条——这些一个“的”字就解决的标配,从数理逻辑的角度来看,使用的恰恰是一组函词。函词就是标配,标配就是函词。坚持奥卡姆剃刀原则,尊重函词、尊重标配是其中应有之义。 所以,为明晰起见,我建议在“如非必要,勿增实体”八个字的后面,还要加上四个字:“勿减标配”。把“如非必要,勿增实体,勿减标配”这十二个字完整地组合在一起,才是对奥卡姆剃刀的准确理解。这十二个字,虽则武断,但却有着以一当十的经济。虽则明快,但却有着挂一漏万的风险。个别情况下,马后炮们看来的真知灼见可能会碧玉蒙尘;但一般情况下,包装成科学的伪科学也绝难在科学殿堂里鱼目混珠。

最近人工智能有点火,从事人工智能研究的人普遍敬而远之的一个“神圣”领域,就是常识的获取和推理。正是因为常识获取的瓶颈到目前为止无法突破,传统人工智能出现了长时间的停滞。通过上面的介绍,你可能发现,奥卡姆剃刀和常识推理也有着极深的渊源和关联。我们随便举上几条: ——“封闭世界假设(Closed worldassumption)”。其含义为:凡是没有直接(通过实体词)或间接(通过函词)提及的对象,操作上均视为不存在。 ——“失败即否定(Negationas failure)”。其含义为:向一个知识推理系统查询一个命题,如果得不到事实或推理的证明,就要返回该命题的逻辑否定作为查询结果。 ——“极小模型(minimalmodels )”。其含义为,从使一个合式公式集合为真的诸多语义解释中,选出的那些把论域逐渐收缩到极限意义下不能再小的语义解释。(论域是什么?就是给定合式公式中直接或间接提到的实体对象的集合!)等等。 常识专治各种抬杠。拿小概率、非典型、非标配的情形和事例说事儿的抬杠者,在常识机制面前都应该自动选择闭嘴,因为这些路数都是被常识机制堵死了的。读到这里,细心的读者可能已经看出了奥卡姆剃刀原则的影子。对,奥卡姆剃刀原则已经深入了常识的本质,体现了常识机制的精髓。 常识不是真理。只是为了既要避免诚实的人们在知识的沟通中把众所周知、共同约定的推理前提车轱辘话来回说,又要避免抬杠成性的小人无孔不入地拿黑天鹅钻空子,人类才选择了常识机制,把日常生活中各种标配对象和标配场景做成了不言自明的潜规则。跟不遵守潜规则的抬杠者,不需要废话;跟遵守潜规则的沟通者,也不需要废话。反正大家都很忙,不欢迎废话。 常识可错。没关系,只要给出特设性前提,常识完全可以自废武功,服从特设场景下的特设性知识。常识是软的,特设性知识是硬的。在遇到矛盾的地方,软的服从硬的,一般的服从特殊的,这是天经地义。

常识获取难。这是实情。有人愿意花费人工一条一条地把车轱辘话形式化,让计算机能够懂得并使用。但是如今是个大数据的年代。那些表现为车轱辘话的标配,是否可以通过大数据来获取呢?只要我们认定,常识的关键在标配,常识获取本质上就是标配的获取,常识中最有价值的部分就是标配,或许我们可以聚焦标配,背靠大数据做点什么。知识图谱的大旗下,不仅有本体,有实体知识库,更应该有标配常识库一席之地。 从大数据中获取标配,离不开自然语言处理技术。标配数据项往往具有“部件(part-of)”或“关系(relation)”的标签,而经过多年的通用语言资源建设,已经有很多语义本体知识库可以比较准确地定位这类标签。借助这类标签的帮助,标配类常识的获取或许可以率先突破常识获取和推理领域的低迷,为人工智能未来的发展扫清一个重要的障碍。 感谢奥卡姆剃刀这样一份宝贵的精神财富。让我们谨遵“如非必要,勿增实体,勿减标配”十二字箴言,既为科学共同体的健康,也为人工智能的未来。

原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-01-10

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏C语言及其他语言

本杰明·富兰克林会怎样学习编程?

来源:编程派 优秀的编程方法是极难教的。编程书籍大抵都是这样开头的:“这是X方法的例子,还有下面这个例子”。教教基础是容易的,因为基础知识也就那么多。难就难在...

33910
来自专栏媒矿工厂

【视频编码】 Content Aware ABR技术(六)

在本系列前面的帖子中,我们连续梳理了Netflix、YouTube、Beamr、EuclidIQ及Bitmovin在ABR方面的一些进展,本文将简要介绍一下编码...

3259
来自专栏龙行天下CSIEM

科学瞎想系列之十七 能源危机是个神马鬼

能源危机是困扰当今世界可持续发展的难题之一,其实从严格意义上来讲,"能源危机"是一个伪命题,根据能量守恒定律,宇宙中的能量即不会无中生有也不会无故泯灭。...

3296
来自专栏about云

大数据术语入门整理

问题导读 我们在学习的过程中经常听到一些术语,那么这些都是什么含义? 1.什么是大数据? 2.什么是数据分析? 3.什么是数据挖掘? 4.什么是数据可视化? 这...

3487
来自专栏美团技术团队

旅游推荐系统的演进

背景 度假业务在整个在线旅游市场中占据着非常重要的位置,如何做好做大这块蛋糕是行业内的焦点。与美食或酒店的用户兴趣点明确(比如找某个确定的餐厅或者找某个目的地附...

3974
来自专栏企鹅号快讯

数控机床数控系统选择4大关键要素

数控系统包括数控装置,进给驱动(进给速度控制单元和伺服电机)、主轴驱动(主轴速度控制单元和主轴电机)和检测元件。选用数控系统时应包括以上内容。 数控装置的选择 ...

1787
来自专栏飞总聊IT

数据模型的战斗(1):被遗弃的老陈

数据库圈对不起老陈 2015年美国某牛逼教授,ACM和IEEE双院士(此处隐去名字)在印度召开的VLDB上说,数据库的圈子非常的不厚道,自娱自乐,只看重自己圈子...

3279
来自专栏大数据文摘

广告系统架构:要啥自行车!

3087
来自专栏新智元

戈登·贝尔奖2017终选名单公布,2/3来自中国,基于神威·太湖之光

【新智元导读】国际高性能计算应用领域最高奖——戈登贝尔奖今年的终选名单公布,一共三篇论文中有两篇来自中国、基于“神威·太湖之光”。 国际高性能计算应用领域最高奖...

4057
来自专栏飞总聊IT

大数据的那些事(3):三驾马车之坑人的MapReduce

在Google的三驾马车里面,Google File System是永垂不朽的,也是基本上没有人去做什么进一步的研究的。BigTable是看不懂的,读起来需要很...

3495

扫码关注云+社区