前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >简单性:认知科学的统一原则(27k字)

简单性:认知科学的统一原则(27k字)

作者头像
秦陇纪
发布2021-04-22 11:21:08
6330
发布2021-04-22 11:21:08
举报
文章被收录于专栏:科学Sciences科学Sciences

译者:秦陇纪,科学Sciences©20210412Mon

尼克·查特(Nick Chater),应用认知科学研究所心理学系,沃里克考文垂大学,CV4 7AL,英国;

保罗·维坦尼(PaulVitányi),数学与计算机科学克鲁斯兰413,1098 SJ,阿姆斯特丹,荷兰。

概括

感知,学习和高级认知中的许多内容都涉及在数据中寻找模式。但是,总是有无限多种模式可与任何数量的数据兼容。认知系统如何选择“明智”模式?认识论,科学哲学以及学习的数学和计算理论中的悠久传统认为,应该根据解释数据的简单程度来选择模式。本文回顾有关探索的事实,即简单性确实会驱动广泛的认知过程。我们概述了支持该观点的数学理论,计算结果和经验数据。

关键词:简单性,Kolmogorov复杂性,代码,学习,归纳,贝叶斯推理

30字摘要:本文概述以下提议:从感知,语言习得到高级认知,认知的许多方面都涉及寻找可提供可用数据最简单解释的模式。

认知系统在其接收的数据中找到模式。知觉涉及从感官输入中寻找外部世界的模式。语言习得涉及在语言输入中寻找模式,以确定语言的结构。高级认知涉及在信息中寻找模式,形成类别并推断因果关系。

简单性和归纳问题

一个基本难题是我们所说的归纳问题:无限多个模式与任何有限的数据集兼容(见框1)。因此,例如,无限的曲线穿过任意有限的点集(框1a);符号序列的无穷大与符号的任何子序列都兼容(方框1b);无限多个语法与观察句子的任何有限集合兼容(方框1c);并且无限多个感官组织可以适应任何特定的视觉输入(方框1d)。什么原则允许的认知系统,解决了归纳问题,并从这些无限集合的可能性,适当地选择呢?

任何这样的原则都必须满足两个条件:(i)必须成功解决归纳问题;(ii)必须在认知中解释经验数据。我们认为(i)的最佳方法是选择提供数据最简单解释的模式;并且这种方法为(ii)提供了一种强有力的方法,这与心理学研究的悠久传统相一致。

物理学家和哲学家马赫[1]提出了以下激进的想法:认知系统应该(准则i),并且确实要(准则ii),偏向于提供对数据进行简单描述的模式。在此,说明必须允许重构数据。描述的简单性由其长度来衡量。

马赫(Mach)的提议可以追溯到奥克汉姆(Ockham)剃刀,这是解释,不应将实体繁多地扩展为必要。牛顿在《原理》中的声明中说:“我们承认自然现象的原因不外乎解释事实的真实和充分理由。”但是,要使马赫的建议更加精确,就需要一种描述复杂性的理论,这需要进一步的数学发展。

量化简单

这些数学发展分两个步骤进行。首先,香农(Shannon)的信息理论证明log2(1 / p)为概率为p的商品的代码长度。这有助于提供高度重复的数据模式的代码长度,可以为它们分配概率,例如低级的感知属性,音素,单词等[2]。其次,科尔蒙戈罗夫(Kolmogorov),所罗门诺夫(Solomonoff),柴廷(Chaitin) [3]对算法信息理论的批判性归纳,通过任何标准(通用)计算机编程语言中x的最短程序的长度,定义了任何对象x的复杂度K(x)。令人惊讶的是,事实证明:

编程语言的选择无关紧要,只要不增加附加因子即可;而且,算法信息论证明与标准信息论非常一致,后者完全适用于后者。至关重要的是,简单性的算法定义适用于单个对象,而香农(Shannon)的定义取决于将概率与对象相关联。

然后,凭直觉,我们可以将认知系统的目标视为压缩数据:以一种可以通过某些可计算过程恢复的形式编码(数学允许压缩可能是“有损的”-即,可能抛出信息)。模式之间的选择是由它们提供的压缩决定的,压缩可以衡量模式证据的强度。这种观点使压缩和模式发现之间的潜在联系成为计算项目。注意,用于数据的最短代码还提供了最少的冗余表示形式。在人[4,5]和机器[6]中,消除冗余已被视为模式识别的核心。

更关键的是,形式化简单性为上述归纳问题提供了一种候选解决方案。与任何一组数据兼容的模式的无限性并不完全相同:认知系统应首选能够为数据提供最短代码的模式。

关于上述标准(i),有两个美丽而重要的数学结果[7]证明了这一选择作为对归纳问题的一种解决方案。结果是,在相当普遍的条件下,数据的最短代码也是最有可能的(根据贝叶斯分析,使用所谓的“通用先验”)。第二个结果是,最短的代码可用于预测,在很大程度上正确的预测上极有可能“收敛”。作为简单的有效归纳方法,证明简单性的第三条强有力的理由是它在机器学习[8,9]和统计学[10]中的广泛使用。

简单性是一种认知原则

因此,简单性似乎在某种程度上满足了标准(i):证明为什么应根据简单性选择模式。标准(ii)呢?简单性可以解释认知科学中的经验数据吗?表1描述了一系列认知现象的模型,包括低水平和高水平的视觉感知,语言处理,记忆,相似性判断以及明确的科学推理中的心理过程。事实证明,简单性已成为认知建模中强大的组织原则的领域广度令人鼓舞。

但是,简单性原则如何经受住直接的经验检验呢?这个问题很难回答,有两个原因。(1)表示问题:尽管在渐近线中,并假设大脑具有通用的图灵机能力,但柯尔莫哥洛夫(Kolmogorov)复杂度是语言不变的,对于简单性而言,许多具体的,非渐近的经验预测取决于对心理表示的假设,这将影响心理表现可以检测到哪些规律性。但是在认知科学中,知觉和语言刺激的心理表现是高度争议的。(2)搜索问题:认知系统可能更喜欢它可以找到的最简单的解释,但却无法找到一个简单的兴趣模式。因此,如果不创建一个全面的认知模型,包括关于表示的假设,也可能涉及搜索,就不能从简单的角度获得精确的预测[11]。

但是,有许多证据与简单性观点一致。

•知觉组织中的各种现象,包括格式塔闭包法则,良好的延续性,共同的命运等,已被广泛解释为显示出对简单性的偏爱。专栏2讨论了一些复杂的案例。理论上的主要替代方法,即贝叶斯视觉感知方法[12]在数学上与简单性原理[13]紧密相关。

•具有简单描述的项目通常在噪声中更容易检测,在检测中也更容易[2,11]。

•刺激代码的简单性量化了该刺激中未发现的结构量。人们在刺激中能找到的结构越多,他们就越容易发现它来处理和记忆[14],而它出现的随机性就越小[15]。

•对于布尔概念(例如A或B或C;A和(B或C)等)的学习速度可以通过这些概念的最短代码长度很好地预测[16]。

•可以将相似性视为将一种表示形式转换为另一种表示形式所需的失真简单性的函数。这种观点做出的经验性预测并没有被现有的基于空间或基于特征的相似性理论所捕获,而是得到了证实[17]。

•谢泼德的普遍化普遍定律[18],这意味着项目具有混淆的可能性,这是内部“空间”中它们之间的距离的负指数函数,可以从以下假设得出:两个对象之间的心理相似性是它们之间最简单的转换的复杂性和最少的附加假设的函数[19]。

•早期视觉的生理学,包括感受野的形状,以及诸如侧向抑制的现象,似乎适合于最大化视觉中的信息压缩[20]。另一方面,理论和经验论据都表明,大脑还对感知输入使用了高度冗余的“稀疏”神经代码[21,22]。

总而言之,自马赫以来,许多理论家提出了笼统的思想,即大部分认知都涉及压缩[23]或消除冗余[24],并且简单性原则已发展成为一种数学上严谨的方法,用于寻找模式。数据[3];作为广泛认知模型的基础;并与一系列经验数据保持一致。我们认为,简单性值得作为认知科学许多领域中潜在的重要统一原则来追求。

表1:通过简单方式进行模式查找:研究样本

认知过程Cognitive process

数据Data

代码Codes

计算机科学/数学方法Computer science/mathematical approaches

认知科学应用Cognitivescience applications

低级知觉Low-level perception

感觉输入/人工捕获的图像Sensory input/artificiallycaptured images

早期视觉中的滤镜Filters inearly vision

•图像压缩[25]Image compression[25]

•早期视觉作为压缩[23,22]Early vision as compression[23,22]

高级感知High-level perception

早期感知过程的感官输入/输出Sensory input/output of early perceptual processing

高级结构的表示Representations of higher level structure

•模式理论[26]Pattern theory[26]

•经济原理[1]•感官组织[27,14]'principle of economy[1]perceptual organization[27,14]

语言习得Language acquisition

语言输入Linguistic input

语言结构的表示形式Representations of language structure

•文本压缩[28]Text compression[28]

•语音学29]和形态分析[30]分段[31,24]和语法归纳[32,33]Phonological29] and morpholgical analysis[30] segmentation[31, 24] and grammar induction[32,33]

高级认知High-level cognition

知识的高级表示High-level representations of knowledge

相似性,因果关系similarity, causal relations

•信息距离[34]•Gen压缩 [35]Information distance[34]Gencompress[35]

•与代表性失真相似[18]•压缩分类[36]Similarity as representational distortion[18]Categorization by compression[36]

科学推论Scientific inference

科学数据Scientific data

理论知识Theoretical knowledge

•机器感应系统[9]•统计基础[10]Machine induction systems[9]Foundations of Statistics[10]

•奥克汉姆,牛顿•马赫经济原理[1]•正式的简化措施[37,38]Ockham, NewtonMach's principle of economy[1]Formal measures of simplicity[37,38]

表1:数学家和计算机科学家已使用简单性原理成功解决了许多模式发现问题。在许多这些领域中,简单性原则也已用作建模认知的起点。

方框1:寻找模式和归纳问题

总是有无限多种模式与任何有限的数据体兼容。这就提出了一个关键问题,即认知系统如何从这无限的选择范围中做出适当的选择。1a中说明了一般问题,其中显然可以使任何数量的连续函数通过一组数据点。对于离散数据也会出现相同的问题。1b左手边的黑色/白色正方形交替显示了一个二进制数据序列。但是,如1b的右手所示,该数据作为其一部分的整体模式可以以任何方式继续。“中间”延续在认知上更自然。但为什么?认知上的自然延续在预测中是否可靠?1c扩展了从很小的“语料库”语言数据到语法归纳的意义。语法1提供了语言上合理的分析;语法2可以产生任何单词序列,并且显然太过笼统了。语法3仅产生语料库中的句子,仅此而已。学习者喜欢合理的分析。但为什么?

最后,1d说明了用于阐述部分知觉输入的无限可能的假设-仅ii。虽然我很认真地娱乐。iii。也与数据兼容。这些插图非常抽象;但是,重要的是,即使输入任意丰富,也会出现相同的问题:尽管将消除某些特定的模式,但是这种丰富化将始终保留无数个不兼容的模式。

方框2:经验数据

方框2:可以从简单的角度理解解析性歧义的各种定性方面。在图2a-c的每一个中,左侧示意性地表示视觉输入,而右侧图表示可能的解释。图2a说明了首选的感知组织通常与数据具有相对较好的(尽管不一定完美)拟合-在此,相对于非常不规则的正方形解释,偏向于不规则的三角形解释是有利的。具有良好数据适合性的模式在给定模式的情况下为数据提供了短代码,并且被简单性原则所首选。图2b展示了对简单图案的补充偏好:2D直线投影图像比平面中高度不规则的曲线更可取,即使从一个特定角度看,它也可以投影出完美的2D线。图2c揭示了视觉编码中精度的重要性。该图说明了将小椭圆解释为与观看者垂直的平面中的椭圆的偏好,而不是将较大但几何相似的椭圆解释为高度偏斜的椭圆(另一种可能的解释是将圆以中等偏斜的角度解释) 。因此,数据拟合以及模式的复杂性在这里看起来都是相同的。简单性原理如何区分这两种椭圆形的解释。答案是,投影对于垂直椭圆更稳定。对于高度偏斜的椭圆,必须更精确地指定方向角度,这会花费额外的代码长度,以使数据获得同样良好的拟合度。最后,2d说明了更简单的解释具有因果意义。右手2D图形被视为线立方体的投影,左手图形被视为不规则的2d图形。

至关重要的是,线立方体的接头被认为是刚性的,而不规则3D图形的接头似乎具有潜在的柔性。魔方的关节被认为是刚性的,大概是因为否则这种“简单”的安排将仅仅是一个偶然的巧合(类似地,从一个硬币开始的100个头的序列将被解释为表明该硬币有偏差)。因此,可以基于简单性推断因果结构。

形式心理学理论还补充了这种定性论证,这些理论试图解释以最小化代码长度的方式来解释感性数字[a],[b]。

参考:

[a] 霍赫伯格,J. (Ehochberg, J.)和麦卡利斯特,E.(McAlister, E.) (1953年)。一种量化“善良”的定量方法。实验心理学杂志第46期,第361-364页

[b]范德赫尔姆, P.A.和吕文堡(Leeuwenberg)P.A. (1996)。视觉规则的优点:一种非变换性的方法。心理评论第103期卷3,第429-456页

致谢:这项工作得到了人类前沿科学基金会,欧盟培训网络HPRN-CT-1999-00065,勒沃胡姆(Leverhulme)信托,ESRC / DTI链接奖以及奥利弗·惠曼公司(Oliver, Wyman & Company)的部分支持。我们感谢哈利勒·汗(Khalilah Khan)和厄休拉·理查兹(Ursula Richards)在准备数字和文字方面提供的宝贵帮助。

参考文献

References

1Mach, E. (1959) The analysis of sensations and the relation of the physical to the psychical.New York: Dover Publications. (Original work published1914)

2Hochberg, J. & McAlister, E. (1953) A quantitative approach to figure "goodness." Journalof Experimental Psychology 46,361-364

3Li, M. & Vitányi, P. (1997) An introduction to Kolmogorov complexity and its applications.New York: Springer-Verlag. (2ndedition)

4Attneave,F.(1954)Someinformationalaspectsofvisualperception.PsychologicalReview61,183-193.

5Barlow, H. B. (1959). Possible principles underlying the transformation of sensorymessages.

Sensory Communication. (Rosenblith, W. ed.) pp. 217-234. MITPress.

6Watanabe,S.(1960).Information-theoreticalaspectsofinductiveanddeductiveinference.IBM Journal of Research and Development 4,208-231.

7Vitányi, P. & Li, M. (2000) Minimum Description Length Induction, Bayesianismand Kolmogorov Complexity. IEEE Trans. Information Theory 46, 2,446-464

8Quinlan,J.&Rivest,R.(1989)Inferringdecisiontreesusingtheminimumdescriptionlength principle. Information and Computation 80,227-248

9Wallace, C. & Freeman, P. (1987) Estimation and inference by compact coding. Journal ofthe Royal Statistical Society, Series B 49,240-251

10Rissanen, J. (1989) Stochastic complexity and statistical inquiry. World Scientific Seriesin Computer Science, 15. Singapore: WorldScientific

11Van der Helm, P.A. & Leeuwenberg, E.L.J. (1996) Goodness of visual regularities: Anon- transformational approach. Psychological Review 103, 3,429-456

12Knill, D. & Richards,W. (eds.) (1996) Perception as Bayesian Inference. Cambridge:Cambridge UniversityPress

13Chater, N. (1996) Reconciling simplicity and likelihood principles in perceptualorganization.

Psychological Review 103,566-581

14Garner, W. (1974) The Processing of Information and Structure. Potomac, MD:Erlbaum 15 Falk, R. & Konold, C. (1997) Making sense of randomness: Implicit encoding as a biasfor

judgment. Psychological Review 104, 2.301-318

16Feldman, J. (2000) Minimization of Boolean complexity in human concept learning. Nature407,630-633

17Hahn, U. et al (in press) Similarity as Transformation.Cognition.

18Shepard, R. N. (1987) Toward a universal law of generalization for psychologicalscience.

Science 237,1317-1323

19Chater, N. & Vitányi, P. (in press) Generalized law of universal generalization. JournalofMathematicalPsychology.

20Blakemore,C.(ed.)(1990)Vision:Codingandefficiency.Cambridge,England.Cambridge UniversityPress

21Gardner-Medwin,A.R.(2001).Thelimitsofcountingaccuracyindistributedneural representations. Neural Computation 13,477-504.

22Olshausen,B.A.&Field,D.J.(1997)Sparsecodingwithanovercompletebasisset:Astrategy employed by V1? Vision Research 37,3311-3325

23Wolff,J.G.(1982)Languageacquisition,datacompressionandgeneralization.Languageand Communication 2.57-89

24Barlow, H.B. et al. (1989) Finding minimum entropy codes. Neural Computation 1,412-423

25Fisher,Y.(ed.),(1995)FractalImageCompression:TheoryandApplication.NewYork:Springer Verlag,

26Mumford, D. (1996) Pattern theory: a unifying perspective. Perception as BayesianInference

(Knill, D. & Richards, W., eds.) pp.25-62. Cambridge UniversityPress

27Leeuwenberg, E. & Boselie, F. (1988) Against the likelihood principle in visual formperception

Psychological Review 95,485-491

28Bell, T.C., Witten, I.H. and Cleary, J. (1990) Modelling For Text Compression PrenticeHall 29 Goldsmith, J. (2002) Probabilistic models of grammar: phonology as informationminimization.

Phonological Studies,5.

30Goldsmith, J. (2001) Unsupervised Learning of the Morphology of a NaturalLanguage.

Computational Linguistics 27, 2,153-198.

31Brent,M.R.,&Cartwright,T.A.(1996).Distributionalregularityandphonotacticconstraintsare useful for segmentation. Cognition 61,93-125

32Grünwald,P.(1996)Symbolic,ConnectionistandStatisticalApproachestoLearningforNatural Language Processing. (Wermter, S., Riloff, E. and Scheler, G. eds.) Lecture Notes inArtificial Intelligence 1040, pp. 203-216. Springer Verlag, Berlin,Germany

33Clark, R. (2001) Information theory, complexity, and linguistic descriptions. In S. Bertolo(Ed.)

ParametricLinguisticsandLearnability,pp.126-171Cambridge:CambridgeUniversityPress.

34Gacs,P.,Tromp,J.etal.(2001)AlgorithmicStatistics,IEEETrans.InformationTheory47,6, 2443-2463.

35Li,M.etal.(inpress) AnInformationBasedSequenceDistanceanditsApplicationtoWhole Mitochondrial Genome Phylogeny.Bioinformatics.

36Pothos, E. & Chater, N. (2002) A simplicity principle in unsupervised humancategorization.

Cognitive Science. 26,303-343

37Kemeny,J.G.(1953)TheUseofSimplicityinInduction.ThePhilosophicalReview,62,391-40838 Sober, E. (1975) Simplicity. ClarendonPress

--------------------

(注:相关素材[1-x]图文版权归原作者所有。)

Appx.素材(5h字)

1. NickChater, PaulVitányi. Simplicity: a unifying principle in cognitive science?. Trends in Cognitive Sciences. Volume 7, Issue 1, January 2003, Pages 19-22. From ScienceDirect © 2002 Elsevier Science Ltd. Published by Elsevier Inc. All rights reserved. [EB/OL], https://doi.org/10.1016/S1364-6613(02)00005-0; visit date: 2021-04-12-Mon.

x. 秦陇纪. 西方哲学与人工智能、计算机; 人工智能达特茅斯夏季研究项目提案(1955年8月31日)中英对照版; 人工智能研究现状及教育应用; 计算机操作系统的演进、谱系和产品发展史; 数据科学与大数据技术专业概论; 文本数据溯源与简化. [EB/OL], 数据简化DataSimp(公号), https://dsc.datasimp.org/, http://www.datasimp.org, 2017-06-06.

—END—

免责说明:素材出处可溯源监督。本号不持有任何倾向性,不认可其观点所述

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 科学Sciences 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
文件存储
文件存储(Cloud File Storage,CFS)为您提供安全可靠、可扩展的共享文件存储服务。文件存储可与腾讯云服务器、容器服务、批量计算等服务搭配使用,为多个计算节点提供容量和性能可弹性扩展的高性能共享存储。腾讯云文件存储的管理界面简单、易使用,可实现对现有应用的无缝集成;按实际用量付费,为您节约成本,简化 IT 运维工作。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档