长尾有多长：人工智能先驱与分形之父的幂律之争

新智元

发布于 2018-03-22 11:35:43

1K0

发布于 2018-03-22 11:35:43

文章被收录于专栏：新智元

【新智元导读】因为在人工智能等方面的突破性研究荣获图灵奖的赫伯特·亚历山大·西蒙（Herbert Alexander Simon）曾就幂律及其产生机制的问题与被誉为分形理论之父的伯努瓦·曼德勃罗（Benoît B. Mandelbrot）有过一场很有意思的学术争论。双方在学术期刊上演六轮大战，针锋相对，甚是精彩。一个生态良好的学术圈，正应该是这样争鸣的状态。

【汪小帆】在科学发展史上，同一个科学发现，以不同的形式、在不同的时间和不同的地点被不同的科学家重新发现的例子是屡见不鲜的。幂律及其产生机制即为一例。同样地，由于观察角度、思维方式和处理方法等的不同，科学研究上的争论也是常见的。不过这里介绍的两位极富个性的科学家围绕幂律在期刊上的六轮大战却是堪称经典了。

无标度与幂律

无标度特征是许多实际复杂网络的一个共性特征：网络中存在少量连接度相对很大的HUB节点，而大部分节点的连接度都相对较低。与对称的钟形曲线不同，无标度网络的度分布往往可以用具有明显非对称性的幂律分布来刻画。1999年，Barabasi和Albert基于增长和优先链接(Preferential attachment)机制建立了BA无标度网络模型，成为网络科学兴起的标志之一。

然而，从历史上看，无论是幂律分布还是优先链接机制都曾被一再重复发现。两个重要的原因包括：一是由于交流不够广泛，使得不少学术成果难以为更多的研究人员所了解。例如，即使在现在的互联网时代，我们也一般不会去查用自己所不懂的语言发表的文献。二是由于认识不够深入，开始以为是不同的东西，逐渐才能揭示出共同的本质。

Yule分布

优先链接机制可以追溯到1922年统计学家John Willis和Udny Yule的一篇Nature文章。沿用今天的网络科学术语，该文试图解释达尔文的生命之树网络的无标度结构，即为什么这颗树上的某些分支要比其它分支扩张的快得多：发现大多数属（genera）只有一个物种，而大多数物种来自单个属。其解释即为优先链接或者富者更富：一个属的物种越多，它就会产生更多的物种。

人工智能先驱西蒙登场

1955年，即在标志着人工智能作为一个独立领域而诞生的“达特茅斯夏季人工智能会议”召开的前一年，西蒙在生物统计学杂志《 Biometrika》上发表了一篇题为《关于一类不对称分布函数》的文章，注意到卡内基梅隆大学当时还叫卡内基理工学院哦。

文章开门见山的指出，其目的就是要分析一类在社会、生物和经济等领域广泛存在的分布函数，这类分布的主要特征就是长尾，即尾部近似服幂指数大于1的幂律分布，即f(i)~ i-(p+1)，p为一个大于零的常数。该文举证了五个具体数据：文章中的单词出现频次分布；科学家发表的文章数量分布；城市人口分布；收入多少的分布；生物属的物种数量分布。

西蒙以写书为例给出了产生幂律分布的“富者更富”假设。设想你正在写一本书并且已经写了k个单词，那么

假设1：第k+1个单词是一个已经恰好出现i次的单词的概率与已经恰好出现i次的所有单词的总次数成正比；

假设2：第k+1个单词是一个新单词的概率为常数a；

西蒙论证了上述假设可以产生幂律分布。

分形之父芒德勃罗的批评

西蒙的文章第一页的页脚还注明了在该文形成过程中曾经与芒德勃罗等人进行过讨论。然而，1959年，芒德勃罗在《Information and Control》上专门发表了一篇批评西蒙文章的注纪《A Note》。注记的主要观点是认为西蒙的模型不能作为上述各种幂律现象的统一模型；特别地，西蒙模型不适合p<1的情形。

西蒙与芒德勃罗的来回争论

西蒙在他的自传《我生活的种种模式》中回忆了他和芒德勃罗的争论。1960年，西蒙发现了芒德勃罗那篇批评他的注记，但是他说无论是作者还是期刊编辑部都没有通知过他。于是西蒙写信给芒德勃罗，提议联合写篇文章阐明双方的异同点。两人起初都同意并交换了一些草稿。但是两人很快发现他们的争论在逐步升级，因此放弃了合写文章的打算。西蒙单独发表了一篇针对芒德勃罗的注记的答复《Further Notes》。

针对西蒙的答复芒德勃罗又另写了一篇答复《Final Note》。

既然是最后的注记，争论似乎到此就结束了。然而，针对芒德勃罗的FinalNote，西蒙又写了一篇答复《Reply to 'Final Note'》。

芒德勃罗看到西蒙的答复终于还是没有忍住，又写了一篇答复《Post Script to 'Final Note'》。

对芒德勃罗的这个答复，西蒙也没忍住，又写了一篇答复《Reply to Post Scripture》。

直到此时，两人围绕幂律在期刊上的公开争论终于结束。不过不知道是他们两人打累了不想打了，还是编辑不堪其扰终止发表的。但是，估计编辑一辈子也没有遇到过事情，因此在两人争论的过程中，编辑与作者居然商量出了一个能使争论过程很快收敛的、估计只有奇葩科学家想出来的办法：每篇答复的长度限定为前一篇答复长度的一个固定的真分数。

幂律遇上西蒙和芒德勃罗这两个特别喜欢争斗的科学家看来也是醉了～～～

不过两人确实都是开创了新领域的伟大的科学家：西蒙无疑是二十世纪罕见的通才，因为在人工智能等方面的突破性研究荣获计算机科学最高奖——图灵奖，又因对经济组织内的决策过程的开创性研究荣获诺贝尔经济学奖；而芒德勃罗的研究范围也是极其广泛，从数学物理到金融数学，并创建令人叹为观止的分形几何。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2016-05-09，如有侵权请联系 cloudcommunity@tencent.com 删除

人工智能

本文分享自新智元微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

人工智能

登录后参与评论

0 条评论

热度

长尾有多长：人工智能先驱与分形之父的幂律之争

长尾有多长：人工智能先驱与分形之父的幂律之争

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐