长尾有多长:人工智能先驱与分形之父的幂律之争

【新智元导读】因为在人工智能等方面的突破性研究荣获图灵奖的赫伯特·亚历山大·西蒙(Herbert Alexander Simon)曾就幂律及其产生机制的问题与被誉为分形理论之父的伯努瓦·曼德勃罗(Benoît B. Mandelbrot)有过一场很有意思的学术争论。双方在学术期刊上演六轮大战,针锋相对,甚是精彩。一个生态良好的学术圈,正应该是这样争鸣的状态。

【汪小帆】在科学发展史上,同一个科学发现,以不同的形式、在不同的时间和不同的地点被不同的科学家重新发现的例子是屡见不鲜的。幂律及其产生机制即为一例。同样地,由于观察角度、思维方式和处理方法等的不同,科学研究上的争论也是常见的。不过这里介绍的两位极富个性的科学家围绕幂律在期刊上的六轮大战却是堪称经典了。

无标度与幂律

无标度特征是许多实际复杂网络的一个共性特征:网络中存在少量连接度相对很大的HUB节点,而大部分节点的连接度都相对较低。与对称的钟形曲线不同,无标度网络的度分布往往可以用具有明显非对称性的幂律分布来刻画。1999年,Barabasi和Albert基于增长和优先链接(Preferential attachment)机制建立了BA无标度网络模型,成为网络科学兴起的标志之一。

然而,从历史上看,无论是幂律分布还是优先链接机制都曾被一再重复发现。两个重要的原因包括:一是由于交流不够广泛,使得不少学术成果难以为更多的研究人员所了解。例如,即使在现在的互联网时代,我们也一般不会去查用自己所不懂的语言发表的文献。二是由于认识不够深入,开始以为是不同的东西,逐渐才能揭示出共同的本质。

Yule分布

优先链接机制可以追溯到1922年统计学家John Willis和Udny Yule的一篇Nature文章。沿用今天的网络科学术语,该文试图解释达尔文的生命之树网络的无标度结构,即为什么这颗树上的某些分支要比其它分支扩张的快得多:发现大多数属(genera)只有一个物种,而大多数物种来自单个属。其解释即为优先链接或者富者更富:一个属的物种越多,它就会产生更多的物种。

人工智能先驱西蒙登场

1955年,即在标志着人工智能作为一个独立领域而诞生的“达特茅斯夏季人工智能会议”召开的前一年,西蒙在生物统计学杂志《 Biometrika》上发表了一篇题为《关于一类不对称分布函数》的文章,注意到卡内基梅隆大学当时还叫卡内基理工学院哦。

文章开门见山的指出,其目的就是要分析一类在社会、生物和经济等领域广泛存在的分布函数,这类分布的主要特征就是长尾,即尾部近似服幂指数大于1的幂律分布,即f(i)~ i-(p+1),p为一个大于零的常数。该文举证了五个具体数据:文章中的单词出现频次分布;科学家发表的文章数量分布;城市人口分布;收入多少的分布;生物属的物种数量分布。

西蒙以写书为例给出了产生幂律分布的“富者更富”假设。设想你正在写一本书并且已经写了k个单词,那么

假设1:第k+1个单词是一个已经恰好出现i次的单词的概率与已经恰好出现i次的所有单词的总次数成正比;

假设2:第k+1个单词是一个新单词的概率为常数a;

西蒙论证了上述假设可以产生幂律分布。

分形之父芒德勃罗的批评

西蒙的文章第一页的页脚还注明了在该文形成过程中曾经与芒德勃罗等人进行过讨论。然而,1959年,芒德勃罗在《Information and Control》上专门发表了一篇批评西蒙文章的注纪《A Note》。注记的主要观点是认为西蒙的模型不能作为上述各种幂律现象的统一模型;特别地,西蒙模型不适合p<1的情形。

西蒙与芒德勃罗的来回争论

西蒙在他的自传《我生活的种种模式》中回忆了他和芒德勃罗的争论。1960年,西蒙发现了芒德勃罗那篇批评他的注记,但是他说无论是作者还是期刊编辑部都没有通知过他。于是西蒙写信给芒德勃罗,提议联合写篇文章阐明双方的异同点。两人起初都同意并交换了一些草稿。但是两人很快发现他们的争论在逐步升级,因此放弃了合写文章的打算。西蒙单独发表了一篇针对芒德勃罗的注记的答复《Further Notes》。

针对西蒙的答复芒德勃罗又另写了一篇答复《Final Note》。

既然是最后的注记,争论似乎到此就结束了。然而,针对芒德勃罗的FinalNote,西蒙又写了一篇答复《Reply to 'Final Note'》。

芒德勃罗看到西蒙的答复终于还是没有忍住,又写了一篇答复《Post Script to 'Final Note'》。

对芒德勃罗的这个答复,西蒙也没忍住,又写了一篇答复《Reply to Post Scripture》。

直到此时,两人围绕幂律在期刊上的公开争论终于结束。不过不知道是他们两人打累了不想打了,还是编辑不堪其扰终止发表的。但是,估计编辑一辈子也没有遇到过事情,因此在两人争论的过程中,编辑与作者居然商量出了一个能使争论过程很快收敛的、估计只有奇葩科学家想出来的办法:每篇答复的长度限定为前一篇答复长度的一个固定的真分数。

幂律遇上西蒙和芒德勃罗这两个特别喜欢争斗的科学家看来也是醉了~~~

不过两人确实都是开创了新领域的伟大的科学家:西蒙无疑是二十世纪罕见的通才,因为在人工智能等方面的突破性研究荣获计算机科学最高奖——图灵奖,又因对经济组织内的决策过程的开创性研究荣获诺贝尔经济学奖;而芒德勃罗的研究范围也是极其广泛,从数学物理到金融数学,并创建令人叹为观止的分形几何。


原文发布于微信公众号 - 新智元(AI_era)

原文发表时间:2016-05-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏FreeBuf

黑产用“未来武器”破解验证码,打码小工都哭了

当我们正讨论如何用AI推动产业升级、改变未来生活时,不法分子也在研究AI技术,并通过各种手段非法牟利。近日,腾讯守护者计划安全团队协助警方打掉市面上最大打码平台...

65970
来自专栏龙行天下CSIEM

科学瞎想系列之六十一 说说噪声

上节课老师说了振动,振动和噪声是不可分割的孪生兄弟,振动在介质中传播就形成声波,声波传到宝宝们的耳朵里就形成了噪声(也有说噪音的)。今天老师就给宝宝们说说噪...

32940
来自专栏量子位

AI说:你的书法有咖喱味丨看字识国别

16120
来自专栏大数据文摘

生命之圈:生物数据可视化的美丽新方法

311100
来自专栏华章科技

机器学习Lasso算法的前世今生

众所周知,机器学习的模型与统计有着千丝万缕的联系。阅读本文后,你才恍然发现,鼎鼎大名的Lasso算法思想锤炼的背后,蕴藏着学生氏分布关于酿酒的小秘密,还可以窥视...

14320
来自专栏DT数据侠

如何用数据找到“钱多事少离家近”的工作?

“钱多事少离家近,位高权重责任轻,睡觉睡到自然醒,数钱数到手抽筋”, 这样的工作真的存在吗?快随本文数据侠,一起搜罗吧~

11200
来自专栏大数据挖掘DT机器学习

R语言构建追涨杀跌量化交易模型

作者:张丹(Conan), 程序员Java,R,Javascript 原文:http://blog.fens.me/finance-chase-sell/#c...

44480
来自专栏CDA数据分析师

如何选择一本优质的数据科学书籍

原作者 Radhouane Aniba 编译 CDA 编译团队 本文为 CDA 数据分析师原创作品,转载需授权 如何选书 选择一本合适的数据科学书至关重要,一...

245100
来自专栏大数据文摘

猎杀埃博拉病毒的算法

35970
来自专栏BestSDK

如何用深度学习来识别恶意软件

这是一个悲伤的故事,你可能经历过。 你又热又渴,看到桌子上有一瓶看起来像水的东西,来不及思考,揭开瓶盖喝了一大口。哦!漏!是油! 时间回到10秒前,我们重来一次...

35490

扫码关注云+社区

领取腾讯云代金券