首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据科学最长存在234年?没错,哥白尼原理透露了……

全文共2782字,预计学习时长5分钟

天文学是一个逐渐发现人类微不足道的过程。我们本自以为位于宇宙的中心,宇宙围绕着我们旋转。然而我们突然被降级到围绕太阳运行的8颗行星中的一颗行星上,而太阳后来也被发现只是银河系中数十亿恒星(甚至称不上是一颗大恒星)中的一颗。

这个星系即雄伟的银河系,看起来相当的引人注意,直到哈勃发现天空中所有的这些模糊物体都是数十亿个其它星系,每个星系都有数十亿颗恒星(可能有自己的有智生命)。这种降级在21世纪持续下去,正如数学家和物理学家得出的结论:宇宙是一个无穷大的宇宙,统称为多元宇宙。

除了降级到宇宙越来越小的地方之外,现在一些思想家声称我们生活在模拟之中,很快就会创造出我们自己的模拟世界。所有这些都很难说我们不是特别的。地球,乃至人类,在整个宇宙中并没有什么与众不同之处,这一观点被称为哥白尼原理。

尽管哥白尼原理第一次是被用于建立我们的物理位置-x、y和z坐标,1993年,J Richard Gott将我们不是特殊观测者的概念应用于宇宙的第四维度-时间。在“哥白尼原理对我们未来前景的影响”中,Gott解释说,若假设我们并不占据历史上的独特时刻,那么可用一个基本方程来预测任何现象的寿命。

哥白尼寿命方程

该方程式可简化为如下:(推导过程位于文章末)为:

其中, t_current表示某事物已经存在的时间量,t_future表示该事物从现在起的预期存续时间量,置信区间(confidenceinterval)表示我们对该估测的确信度。这个方程是基于一个简单的想法:我们不存在于一个独特的时间点,因此,当我们观察一个事件时,我们最有可能看到的是中间,而不是开始或结论。

你极有可能位于事件的中间,而不是事件的开端或结尾时。

与任何方程一样,找出其工作原理的最佳方法是输入一些数字。简而化之,如人类的存在年限。我们将使用95%的置信区间,假设现代人类已经存在了20万年。代入数字,我们得到:

经典的宴会问题(好吧,只有我参加的宴会)-人类将会存在多长时间?其答案是5130年到780万年(置信区间为95%)。这与实际证据非常一致,证据表明哺乳动物的平均持续时间约为200万年,尼安德特人的平均持续时间为30万年,直立人的平均持续时间为160万年。

这个方程最精妙之处是其用途广泛,只依赖于统计数据,而无需解释其背后的复杂原因。一个电视节目持续多长时间,一项技术的使用寿命,或者一家公司存在的时间长短,都要受到诸多相互关联的因素的制约。我们可以利用哥白尼的时间(时间的一种有趣表达)原理,对任何现象的寿命做出一个合理的估计,而不是探究其原因。

为了将这个方程应用到更贴近实际的领域,如数据科学,我们首先需要找到这个领域目前的生命周期,根据 Harvard Business Review 发表的文章《数据科学家:21世纪最性感的工作》可将其生命周期定为6年。然后,我们利用这个方程发现,数据科学的存续时间最少为六年零两个月,最长为234年。(置信区间为95%)

若缩小估计范围,将置信区间减为50%,则其存续期间变为2年—18年。

这说明了统计学中的一个重要点:如果我们想提升精密度,就必须牺牲精确度。较置信区间越小,出错的可能性就越大,但它为我们的答案提供了一个更窄的范围。

没错,原子弹和外卖

你可能不太认可该方程的答案,因为其范围太宽了。然而,我们的目标不是得到一个单一的数字,而是找到一个合理的范围。因为即使运用最佳算法,我们也几乎不可能找到一个保证正确的数字。

哥白尼的寿命方程可以看作是费米估算法Fermi estimate),一个以物理学家Enrico Fermi命名的封底计算(backof the envelope style calculation)。1945年,费米只用了几张纸片,估计了三位一体原子弹实验的当量在2倍以内!同样,我们可以利用这个方程对现象的生命周期进行合理的估计。

有两个重要的启示,一个是技术上的,另一个是哲学上的,从哥白尼原理中,我们可以发现一些事物会存在多长时间:

1. 我们可以利用统计数据快速获得不受人为因素影响的客观估计。(而且,统计数据也很有趣!)

2. 关于某物的持续时间的一个很好的初步估计值就是其已存续时间。

关于第一点,如果想知道百老汇的演出会持续多久,你应从哪里开始收集数据?你可以从评论,演员的声誉,甚至剧本中的对话来确定其吸引力,进而估计出该节目还能持续多久。或者,你也可以像Gott那样,运用他的简单方程式,正确预测百老汇44场演出中的42场演出时间。

当仅考虑单个数据点时,我们很容易被细节干扰,将其误解为人类行为的某个方面。有时候,我们需要后退一步,把所有的细节忽视掉,应用基本的统计数据,而不是试图去探究人类的心理。

就后者来说,正如Nassim Taleb在他的《Antifragile》一书中所称,计算一个不易变质的物品(比如想法或者艺术品)将会存在多长时间的最简单的方法是看它当前的寿命。换句话说,技术的未来寿命与其过去的寿命成正比。

这就是著名的“林迪效应”,其意义显而易见:作为信息交换媒介的书籍这个概念已经存在了很长一段时间了,必须有一个生存这么长时间的理由,我们可以期待它能持续到未来。另一方面,一个新的想法—谷歌眼镜-在统计上不太可能存活下来,因为每天都有大量的新概念出现。

此外,已经存在100年的公司-Caterpillar -一定是在做正确的事情,并且我们可以期待他们可以比初创企业-Theranos -存在的时间更长,这些初创企业还没有证明他们满足了需求。

再举一个哥白尼寿命方程的例子,比如,你一小时前发的一篇精彩的推特。统计数据告诉我们,其内容将与90多秒到2天内发生的事情有关。在另一方面,在未来的26年甚至39000年,仍会有学生读英国文学史上最古老的故事《Beowulf》来消磨时间。此外,这个故事不会发生在虚拟现实上-消费者虚拟现实将会存在73天到311年之间-但在最持久的媒体形式上,书籍的统治地位还剩下29.5到45000年。

有些人可能把哥白尼的时间和空间原则看作是一场悲剧,但我觉得这很令人兴奋。尽管在放弃地心说后,人类才意识到宇宙的惊人壮丽,一旦我们的时代是特殊的、我们生活在人类顶峰的神话被打破,一切都将成为可能。是的,我们现在可能在宇宙尺度上微不足道,但5000年后,我们的祖先-或可能我们-将扩展到整个银河系,甚至从根本上改变银河系。

正如David Deutsch在他的《The Fabric of Reality》一书中指出的,任何没有还未被物理定律约束的事情,只要有足够的时间,人类就能实现。与其担心你现在应该做的工作毫无意义,不如把它看作是对人类已经开始的伟大事业的贡献。我们现在受哥白尼原理的支配,但也许人类真的是不同的:毕竟,我们是已经有能力思考我们在宇宙中位置的恒星。

推导

哥白尼生命周期方程的推导如下:(任何事物的总寿命是当前寿命加上未来寿命)

如果我们不相信人类的时间位置具有特殊性,那么我们对现象的观察既不发生在开始,也不发生在结尾:

对z进行以下代换:

根据总寿命的定义,将其代入:

然后算出未来寿命:

置信区间为95%时,我们得到乘数1/39和39;置信区间为50%时,系数为1/3和3;置信区间为99%时,我们得到系数1/199和199。

留言 点赞 发个朋友圈

我们一起分享AI学习与发展的干货

编译组:高亚晶、狄思云

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20190123B10H9W00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券