计算机大数据为迎接大量天文信息做准备

Mario Jurić曾说正如数学将物理学从哲学转变为科学一样,数据和计算正在转变当今科学, Jurić正在领导推动天文学为即将到来的数据流做好准备。在南斯拉夫时Jurić会翻阅祖父的物理学书,他了解到恒星不同的颜色,代表了不同温度。八年级科学展览项目时,Jurić想捕捉光谱光;于是他向老师借了一个三棱镜,使用纸板厕纸管和胶带将棱镜和老式相机连接起来,然后打开快门几分钟,让星光穿过棱镜,在胶片上捕捉光线。他居住的萨格勒布大约有100万人,在一般情况下,城市的光污染会淹没他的测量值。然而在南斯拉夫解体的残酷战争中,Jurić正在中学读书,在爆炸的影响下,城市已经停止供电了。

Mario Jurić在华盛顿大学。图片:Chona Kasinger for Quanta Magazine

博科园-科学科普:整个城市都陷入一片黑暗。回想起来,那时父亲对我已经非常宽容,因为在没有电的情况下,他还让我在后院安装设备,拍摄天空的照片,科学计划成功使他有信心继续研究恒星。坏事也有可能变成好事,在谈话中Jurić多次提及这句话。高中时当地的一台40厘米的望远镜在他眼里变成了一台小行星探测机。2002年对天文学的强烈热爱将他带到了美国,当时他在普林斯顿大学(Princeton University)读物理研究生。现在他已经是西雅图华盛顿大学的教授,并且花费大量时间来弄清楚如何管理大量数据,这些数据将很快从大型天气测量望远镜(LSST)流入。LSST是一种宽视场望远镜,是世界上最大的具有32亿像素的相机,该望远镜预计每晚能产生约20兆字节的数据。Quiqa与Jurić交谈数据膨胀将如何改变成为天文学家的意义如下:

图中显示的是Jurić在兹威基瞬态设施(ZTF)的警戒流前面。ZTF是一个观测台,用来观察小行星或超新星等移动或亮度变化的物体。如果有所发现,ZTF会在20分钟内向天文学家发出警报,并每晚发送100万个警报。大型巡天望远镜将在一分钟内向检测点发送警报,并预计每晚将产生约1000万个警报。图片:Chona Kasinger for Quanta Magazine

1、数据变化如何改变天文学?

从古希腊开始,我们面临的最大挑战就是收集数据。天文学是一种数据有限的科学。现在具有代表性的研究调查会产生数亿恒星信息。通过使用LSST将进入某一制度体系内,观察大约400亿个物体。突然间大量数据涌入了一个信息非常有限的科学领域。基于理论和对宇宙的理解,应该面对的是几百个研究对象,然而现在却要处理几百万的对象。数据量急剧上升给数据处理带来了巨大挑战。现在我们必须想出办法把这些东西转化成一些有用的东西来构建理论,从而进行推论。如果我不能用代码来表达我需要计算机为我做什么,或者为我测量什么,那么我就没有办法把收集到的任何数据转换为可以用来推理理论的形式。

2、所以计算和编程变得至关重要?

我认为当物理学从哲学中分支出来时,是数学让两者产生区别,用一组方程和严格的规则写下逻辑,这些规则会以一种自洽方式把你从A点带到B点 。如果物理要迈出下一步,就必须这样做,这样物理学就与数学联系在一起,数学也就成为物理学的语言。现在我们也正在面临相同的事情,我们要用这些大数据集来说明,软件工程必须在这方面做同样的事情,它正成为我们需要的语言,为了推想周围的世界。我们正处于自然科学发展的另一个转折点,编程真的和数学做科学一样重要。

3、如何将大量数据转化为有用数据?

现在我们必须开始学习如何指导计算机进行各种测量。比如观测一张图像时,计算机可以轻而易举观测到人眼难以看到的星系。我们已经花费几十年时间来研究如何做到这一点——如何指导计算机看天文图像,正确识别所有物体,并在没有任何人类帮助的情况下也可以正确测量所有物体。我认为这个领域已经过渡到现在计算机可以处理这些数据并给我们目录的领域。在大数据的下一步演化中,将要指导计算机获取图像输出,编录所有目录,然后为我们找到一系列有意义的事物。计算机甚至可能根据事物的趣味程度为我们排列一份表格。

4、有什么例子呢?

在天体物理学的许多领域,物体可能会改变亮度等,但它们不会移动。然而,太阳系却表现出了独一无二的特性——太阳系的物体会移动。当你拍摄天空的图像时,你会发现一颗小行星,但它看起来又像一颗恒星;当你再拍另一张照片时,你会注意到它移动了。所以现在你需要想出一些算法来真正地连接这些点。利用LSST,黄道上的每个图像中包含着像5000个小行星一样的东西。这转化每晚发生几百万次,每晚上都有一百万个点在移动,然后你要知道哪一个与哪一个互相匹配。因此现在关注的是确保我们知道如何构建正确连接的DOTS算法。

5、你怎样才能找到你不知道的东西,如果你还没有把这个程序写进你的算法里,那个发现会丢失吗?

这取决于算法如何构建,根据我们今天掌握的知识,很认真地思考,对于那些具有本不应该具有属性的对象,这将会如何表现。我们试图使算法尽可能广泛地捕捉所有这些对象,并且试图理解算法的盲点。

图片:Chona Kasinger for Quanta Magazine

6、你对天文学和计算机科学双重的兴趣来自哪里?

我是那种永远无法决定自己是想学计算机科学还是天文学的人。电脑之所以美妙,是因为它没有创造边界。当你输入一段代码时,就好像是在电脑里建立一个新世界。对我来说,这几乎是艺术创作。另一方面我想了解这个世界如何运作。当我到普林斯顿大学攻读博士学位时,斯隆数字天空调查才刚刚开始。我想:哇,大量数据袭来,并且人们很难理解这些数据;在那一刻,我意识到我的梦想成真了:我不需要再为学习计算机相关还是与天文学相关的事情做出决定,因为在这种环境下,两者皆需。

7、你所有的天体物理学工作都与算法和计算机编程有关吗?

我认为这是达到目的的一种手段,花了很多时间关注算法本身,但我更喜欢用这些东西来找到有趣的结果。我被天文学上的问题所驱使,但想确保我的方式可以让下一个人在我所做的基础上继续研究。

8、你提到了斯隆数字天空调查,LSST是如何建立的?

我认为斯隆在它的历史上总共产生了10到20兆字节的成像,LSST在一个晚上就能做到。就物体的数量而言,斯隆中有5亿颗恒星。在LSST中大约有200亿颗恒星,每颗都可能被看到825次。我们将要关注体积巨大的时域。另一个问题是,当提及问题时只要把它想成是机遇LSST就会测量每个物体的几十甚至上百个潜在的东西。

21世纪初人们意识到,与其建造一个单独望远镜来完成天文学的这一部分,不如为这一部分建造一个单独望远镜。我们要做的就是建造一个望远镜,来观测整个天空。但你仍然需要将这些数据处理成一种形式,使太阳系的科学家们能够专注于太阳系的物体,研究暗能量的人们做弱透镜映射。数据处理成为LSST的头等大事。这是天文学中罕见的项目之一,我负责的数据系统和望远镜以及照相机一样昂贵,一样巨大。

9、虽然我们还没有接触到,但在天文测量中绝对重要的是统计学

当你收集到所有需要收集的数据后,剩下的唯一事情就是更好地分析它。有一些统计方法允许进行测试,以适应模型。统计就是从数据中提取知识,根据拥有的数据对知识进行量化。我们非常规范地使用统计学,比如这是一本统计学烹饪书。你必须查看配料,选择正确的烹饪顺序,正确的烹饪方法。如果一个数据集需要符合某些标准,而你能很好地应用这个规则,好事就会发生。我们已经达到了几乎可以测量所有东西的程度,唯一要做的就是正确地分析数据。人们认为统计数据很无聊,但它就是科学的基本要素,并且科学家能在数据中发现知识。

10、你所说的大数据进化不仅仅发生天文学领域,对吗?

粒子物理学家研究它已经有一段时间了,可能比我们早研究5到10年。海洋学、生态学现在也正在进入同一区域,需要的基本工具仅仅是研究正在改变的科学。

博科园-科学科普|文:Liz Kruesi/Quanta magazine/Quanta Newsletter

博科园-传递宇宙科学之美

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181106A1S6CQ00?refer=cp_1026
  • 腾讯「云+社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 yunjia_community@tencent.com 删除。

扫码关注云+社区

领取腾讯云代金券