文章/答案/技术大牛

发布

数据科学最长存在234年？没错，哥白尼原理透露了……

文章来源：企鹅号 - 读芯术

全文共2782字，预计学习时长5分钟

天文学是一个逐渐发现人类微不足道的过程。我们本自以为位于宇宙的中心，宇宙围绕着我们旋转。然而我们突然被降级到围绕太阳运行的8颗行星中的一颗行星上，而太阳后来也被发现只是银河系中数十亿恒星（甚至称不上是一颗大恒星）中的一颗。

这个星系即雄伟的银河系，看起来相当的引人注意，直到哈勃发现天空中所有的这些模糊物体都是数十亿个其它星系，每个星系都有数十亿颗恒星（可能有自己的有智生命）。这种降级在21世纪持续下去，正如数学家和物理学家得出的结论：宇宙是一个无穷大的宇宙，统称为多元宇宙。

除了降级到宇宙越来越小的地方之外，现在一些思想家声称我们生活在模拟之中，很快就会创造出我们自己的模拟世界。所有这些都很难说我们不是特别的。地球，乃至人类，在整个宇宙中并没有什么与众不同之处，这一观点被称为哥白尼原理。

尽管哥白尼原理第一次是被用于建立我们的物理位置-x、y和z坐标，1993年，J Richard Gott将我们不是特殊观测者的概念应用于宇宙的第四维度－时间。在“哥白尼原理对我们未来前景的影响”中，Gott解释说，若假设我们并不占据历史上的独特时刻，那么可用一个基本方程来预测任何现象的寿命。

哥白尼寿命方程

该方程式可简化为如下：（推导过程位于文章末）为：

其中， t_current表示某事物已经存在的时间量，t_future表示该事物从现在起的预期存续时间量，置信区间（confidenceinterval）表示我们对该估测的确信度。这个方程是基于一个简单的想法：我们不存在于一个独特的时间点，因此，当我们观察一个事件时，我们最有可能看到的是中间，而不是开始或结论。

你极有可能位于事件的中间，而不是事件的开端或结尾时。

与任何方程一样，找出其工作原理的最佳方法是输入一些数字。简而化之，如人类的存在年限。我们将使用95%的置信区间，假设现代人类已经存在了20万年。代入数字，我们得到：

经典的宴会问题（好吧，只有我参加的宴会）－人类将会存在多长时间？其答案是5130年到780万年（置信区间为95%）。这与实际证据非常一致，证据表明哺乳动物的平均持续时间约为200万年，尼安德特人的平均持续时间为30万年，直立人的平均持续时间为160万年。

这个方程最精妙之处是其用途广泛，只依赖于统计数据，而无需解释其背后的复杂原因。一个电视节目持续多长时间，一项技术的使用寿命，或者一家公司存在的时间长短，都要受到诸多相互关联的因素的制约。我们可以利用哥白尼的时间（时间的一种有趣表达）原理，对任何现象的寿命做出一个合理的估计，而不是探究其原因。

为了将这个方程应用到更贴近实际的领域，如数据科学，我们首先需要找到这个领域目前的生命周期，根据 Harvard Business Review 发表的文章《数据科学家：21世纪最性感的工作》可将其生命周期定为６年。然后，我们利用这个方程发现，数据科学的存续时间最少为六年零两个月，最长为234年。（置信区间为95%）

若缩小估计范围，将置信区间减为50％，则其存续期间变为2年—18年。

这说明了统计学中的一个重要点：如果我们想提升精密度，就必须牺牲精确度。较置信区间越小，出错的可能性就越大，但它为我们的答案提供了一个更窄的范围。

没错，原子弹和外卖

你可能不太认可该方程的答案，因为其范围太宽了。然而，我们的目标不是得到一个单一的数字，而是找到一个合理的范围。因为即使运用最佳算法，我们也几乎不可能找到一个保证正确的数字。

哥白尼的寿命方程可以看作是费米估算法Fermi estimate），一个以物理学家Enrico Fermi命名的封底计算（backof the envelope style calculation）。1945年，费米只用了几张纸片，估计了三位一体原子弹实验的当量在２倍以内！同样，我们可以利用这个方程对现象的生命周期进行合理的估计。

有两个重要的启示，一个是技术上的，另一个是哲学上的，从哥白尼原理中，我们可以发现一些事物会存在多长时间：

1. 我们可以利用统计数据快速获得不受人为因素影响的客观估计。（而且，统计数据也很有趣！）

2. 关于某物的持续时间的一个很好的初步估计值就是其已存续时间。

关于第一点，如果想知道百老汇的演出会持续多久，你应从哪里开始收集数据？你可以从评论，演员的声誉，甚至剧本中的对话来确定其吸引力，进而估计出该节目还能持续多久。或者，你也可以像Gott那样，运用他的简单方程式，正确预测百老汇44场演出中的42场演出时间。

当仅考虑单个数据点时，我们很容易被细节干扰，将其误解为人类行为的某个方面。有时候，我们需要后退一步，把所有的细节忽视掉，应用基本的统计数据，而不是试图去探究人类的心理。

就后者来说，正如Nassim Taleb在他的《Antifragile》一书中所称，计算一个不易变质的物品（比如想法或者艺术品）将会存在多长时间的最简单的方法是看它当前的寿命。换句话说，技术的未来寿命与其过去的寿命成正比。

这就是著名的“林迪效应”，其意义显而易见：作为信息交换媒介的书籍这个概念已经存在了很长一段时间了，必须有一个生存这么长时间的理由，我们可以期待它能持续到未来。另一方面，一个新的想法—谷歌眼镜－在统计上不太可能存活下来，因为每天都有大量的新概念出现。

此外，已经存在100年的公司－Caterpillar －一定是在做正确的事情，并且我们可以期待他们可以比初创企业－Theranos －存在的时间更长，这些初创企业还没有证明他们满足了需求。

再举一个哥白尼寿命方程的例子，比如，你一小时前发的一篇精彩的推特。统计数据告诉我们，其内容将与90多秒到2天内发生的事情有关。在另一方面，在未来的26年甚至39000年，仍会有学生读英国文学史上最古老的故事《Beowulf》来消磨时间。此外，这个故事不会发生在虚拟现实上－消费者虚拟现实将会存在73天到311年之间－但在最持久的媒体形式上，书籍的统治地位还剩下29.5到45000年。

有些人可能把哥白尼的时间和空间原则看作是一场悲剧，但我觉得这很令人兴奋。尽管在放弃地心说后，人类才意识到宇宙的惊人壮丽，一旦我们的时代是特殊的、我们生活在人类顶峰的神话被打破，一切都将成为可能。是的，我们现在可能在宇宙尺度上微不足道，但5000年后，我们的祖先-或可能我们-将扩展到整个银河系，甚至从根本上改变银河系。

正如David Deutsch在他的《The Fabric of Reality》一书中指出的，任何没有还未被物理定律约束的事情，只要有足够的时间，人类就能实现。与其担心你现在应该做的工作毫无意义，不如把它看作是对人类已经开始的伟大事业的贡献。我们现在受哥白尼原理的支配，但也许人类真的是不同的：毕竟，我们是已经有能力思考我们在宇宙中位置的恒星。

推导

哥白尼生命周期方程的推导如下：（任何事物的总寿命是当前寿命加上未来寿命）

如果我们不相信人类的时间位置具有特殊性，那么我们对现象的观察既不发生在开始，也不发生在结尾：

对z进行以下代换：

根据总寿命的定义，将其代入：

然后算出未来寿命：

置信区间为95%时，我们得到乘数1/39和39；置信区间为50%时，系数为1/3和3；置信区间为99%时，我们得到系数1/199和199。

留言点赞发个朋友圈

我们一起分享AI学习与发展的干货

编译组：高亚晶、狄思云

发表于: 2019-01-232019-01-23 18:00:55
原文链接：https://kuaibao.qq.com/s/20190123B10H9W00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

数据科学最长存在234年？没错，哥白尼原理透露了……

相关快讯

扫码

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐