人工智能对我们而言并不陌生,可能你在每一日的生活中,无数次使用到人工智能而不自知:比如你最近滚动过某个网站页面,观看过某个视频,使用了手机的语音控制功能,检查过收件箱,或者检索了某个词语,这些实际上都使用了一类能够从以往经验中自动学习的复杂计算机算法。
对于上面说的这些事情,“人工智能”这个概念虽然不算错,但也许还是过于新奇——今天,仍然没有一台计算机具有完备的智力或者自主性。不过,计算机程序所能做的事情有可能正经历着范式转变。和人类为计算机明确地编程不同,算法可以使用数据来构建它们自己的数学模型——有时这些模型过于复杂,以至于人类难以理解。人工智能的这种活动被称为机器学习,它能够过滤海量的数据。
在过去几年里,几乎在天文领域的每个部分都出现了人工智能的身影,考虑到天文学正面临的数据洪潮,这似乎应不足为奇。从系外行星、变星到宇宙学,在即将来临的下一个十年的天文研究中,机器学习无疑将扮演越来越重要的角色。
人工智能和大数据时代正在改变我们研究天文的方式。
大数据,大机遇
机器学习并非一个全新的概念,早在20世纪50年代,就涌现出了一批先行者。但长期以来,它都因为无法实现、不切实用而被人们所忽视,它要求极其强大的计算能力才能运行。正是因为大数据技术的出现,以及计算技术的显著提升,才最终促成机器学习技术的腾飞。
有一个很有名的例子,Andrew Ng(斯坦福大学)曾负责领导“谷歌大脑”项目,他利用了1000万部YouTube视频来训练一个算法辨认家猫(为什么是喵?(´・ω・`))。
看猫
谷歌的计算机科学家们训练了一个强大的神经网络,让它在许多其它事物中识别出猫脸。它“学习”了 1000 万张从YouTube 视频中截取的像素图片。当被要求给出一只猫时,它生成了这幅令人信服的图像。
机器学习的用武之地并未局限于互联网上的狂想。在天文领域中,大数据无处不在。“毫无疑问,我们正处于被我们称作‘巡天天文’的时代”。斯隆数字化巡天(SDSS)已经拍摄了全天的三分之一,但是在新近的和未来的项目面前,它已经相形见绌。新的标杆是大口径全天巡视望远镜(LSST),计划于2022年开始科学运行。它将监视宇宙时空中的370亿个恒星和星系,生成一部时长十年的南天电影,每晚它都可以产出相当于整个SDSS计划的数据量。
还有其它一些项目:2013年,“暗能量巡天”开始为数以亿计的星系编制星图;2014年,“盖亚”卫星开始测绘银河系里的数十亿颗恒星;2017年底,“兹威基瞬变源工厂”将看到它的第一缕光,它每小时能够扫描3750平方度的天区。现在,用于天文研究的数据量已经太过巨大,更不用说以往巡天中的档案数据,“人力无法与之匹配”,即便有几十个研究生和数千名公众科学家的帮助,也不可能单靠人眼仔细看完所有的数据。
不仅是大
在计算机科学中,“大”数据,不仅仅是指体量,它们往往还具有多样性和高产生速度。大数据是以不同格式呈现(例如图像、光谱和时间序列数据)的海量数据,而且还必须被以一种很及时的方式处理。
在Brian Nord(费米实验室)曾让20名科学家花费了好几个月的时间来仔细查看超过250平方度的深空图像。他们要找出能够指示强引力透镜的反常构形,在那些位置,星系团或大质量星系会使来自背景天体的光线弯折。科学家们必须在暗能量巡天覆盖的整整5000平方度范围并有可能给出三倍于此的引力透镜又上一个数量级的原始数据集里一一辨别,以免错失任何可能的辐射源。
幸运的关键巧合
要形成一个强引力透镜,需要一点儿好运。首先,两个物体必须以正确的方式排成一列,这样才能依靠其中之一的引力放大来自后方的另一个物体的光线;其次,人类要想在浩瀚天空中找到这样一个很小的透镜,必须依靠一点儿运气。
Nord说:“要目视扫描的像素数大得令人痛苦。这是如此令人绝望,必须找出一种更好的办法。’”在一定程度上受到了特斯拉公司的自动驾驶汽车的激励,于是他开始设法将人力从这种工作中解放出来。
他设计并构建了DeepLensing,这是一个机器学习程序,能够辨认出扭曲变形的星系图片。DeepLensing包含三套神经层,神经层充当了过滤器,可以选出输入图片中的特征结构,训练完成后,最后一个神经层就能给出最终的决定:是引力透镜,或者不是引力透镜。
天网
这幅概要图描述了一个简单的神经网络,数据会进入每个神经元,并进行一次简单的运算,再被输入下一个神经层。最后一个神经层可以汇聚结果,形成答案。
与人脑中的大约1000亿个神经元相比,这些网络显得极其简单。实际上,只要数十行代码就能构建出一个基础的神经网络。但是,从数学上看,结果就是尺度巨大,有时大至难以理解的线性代数。
虽然DeepLensing还只是一项发展中的工作,但它已经能够实现一些其它方法无法完成的任务:在模拟中,快速地过滤数以千计的输入图像,并在辨识引力透镜时保持90%以上的准确率。
大海捞针
机器学习完全可以用“大海捞针”式的研究来形容。因此,当Elena Rossi(荷兰莱顿天文台)准备研究极其罕见的超高速恒星时,机器学习就成为了她所需要的重要工具。
这类恒星正在高速远离银河系的中心,它们有可能是通过与银河系中心的特大质量黑洞的引力弹射作用被抛出。迄今为止,天文学家只找到了大约20颗超高速星,但是Rossi预计,在“盖亚”卫星正在监视的10亿颗恒星中,至少能找到100颗以上的超高速星。而利用这些恒星的运动轨迹,可以探查出包裹着整个银河系的暗物质云的形状。但是要描绘出一颗超高速星在暗物质晕里的整个轨道,她首先就必须了解它在空间中的运动状况。Rossi不仅要以远低于百万分之一的比例从普通恒星中辨别出这类罕见的恒星,而且还要处理不完整的数据。
逃逸恒星
这幅艺术画描绘了一颗恒星逃离银河系的过程,可以让恒星逃离星系的环境是极其罕见的。这种超高速星因此很难发现,除非天文学家采用创新性的方法。
Rossi构建了一个足够复杂的神经网络,可以从数据中提取出所需特征,进一步过滤和提取数据,并构建起一个日益灵活的神经网络。Rossi将算法置入循环测试,以达到最效果。“我们仍在试图理解我们的工具”,她说。
这个算法正在验算“盖亚”卫星公布的首批数据,其中的恒星总数达10亿,结果找到了80个候选超高速星,经过后续观测,最终,该团队发现了6颗超高速星,对于首轮搜寻,这是一份相当不错的收获。这个算法还带来了另一个惊喜:5颗并非来自于银河系中心的逃逸恒星,每颗的速度都在400到780公里/秒之间。这些恒星有可能曾经是银河系盘中的双星系统的一部分,当它们的伴星发生超新星爆发时将其抛出。“我们的算法找出了此类过程的一个非常特殊的例子。”
2018年4月,“盖亚”卫星将发布下一批数据,也许能帮助确认Rossi的发现。天文学家们已经成功地完善了机器学习,使之可以重构出已知的罕见天体的样本。但是自我学习算法还能做更多的工作——发现全新的天体类型。现在,机器正逐步具备“系统性发现新事物”的能力。
星系动物园的计算
今天,类似“宇宙动物园”( Zooniverse )的公众科学项目可以对大批量的星系和其它天体进行分类,而未来的大数据巡天,例如 LSST ,则将产生更多的数据,上述方法已经不敷使用。哈勃空间望远镜拍摄的星系团 MACS0416.1–2403 的图像(左), Alex Hocking (英国赫特福德大学)等人训练了一个多部分机器学习算法,以自动识别产星星系,包括透镜状星系(右上)和椭圆星系(右下)。
不可预见的联系
人们正试着让这些程序走得更远——不仅仅在未来的研究中实现“大海捞针”,还能够研究整个“海底”。
自我学习算法可以在数据的特征结构之间建立不可预见的联系,使计算机可以对所有的天体进行归类并总结其特点。
2015年,加州大学伯克利分校读研究生的Adam Miller,以及他的导师Joshua Bloom,意识到机器学习可以在变星的亮度测量数据和物理性质之间建立联系。他们利用一个决策树集合(总体上被称为随机性森林)进行了一次概念验证。每棵树都会问一系列问题,从而将变星分类。这些问题并不是程序设定好的;这些决策树会根据它们受训的数据来决定问题。
从树到森林
随机性森林算法都是一些决策树的集合。每棵树的形状都不相同,它们可以对数据提出不同问题,人类不能规划数据的权重——决策树会自己决定向数据提出什么问题。
结果就是,机器学习可以将LSST从一台单纯测量变星随时间变化的仪器,变为一具可以测量恒星光谱以及物理性质的光谱仪。Bloom称其为“一个怪异的令人头疼的问题”。 “这就像坐在屋里,听一些人在房间另一边歌唱”,Bloom说:“而你根据他们唱了什么,就可以说出他们的年龄有多大,性别是什么,头发是什么颜色。”
黑箱问题
尽管具有令人难以置信的潜力,但机器学习在天文领域中的应用只是刚刚起步,而这种延迟的部分原因只是因为人们的犹豫。
“机器学习的普遍问题在于,你总是能得到一个答案”,Bloom告诫:“而这的确很危险。”因为机器学习在建立联系和模式识别上比人类更有优势,利用这些算法就导致了一个显著的风险:天文学家获得的答案也许只是一个答案,甚至可能是错误答案,而他们对此并不了解。
Ashley Villar(哈佛大学)曾陷入过这种混乱,当她在研究重元素或金属的不同含量可能会怎样改变爆炸的情况时,构建了一个小型的神经网络,以更好地理解Ia型超新星。她对这个算法进行了训练,它开始产生输出:当她输入Ia型超新星的光谱,该算法就会报告其前身星的金属含量。但它是如何做出决定的,这个答案是否总是正确的?回答这个问题是机器学习在今天所面临的最大挑战之一。
当算法缺失一些数据时,它会犯下多大的错误?Villar认为,它的错误越严重,这一部分在选取答案时的权重就越大。解释一个算法究竟是如何做到它所做的,又或者可以让它做梦。正如Ingo Waldmann(伦敦大学学院)所说:“做梦只不过是往回运转。”
面对即将来临的专门系外行星任务的时代,Waldmann构建了一个快速的、三层的神经网络用于识别各种分子在其系外行星光谱中留下的印记。ROBERT不再需要仔细阅读数以百计的温度曲线图、分子谱线和云雾概率数据,而只要学习水分子在一张系外行星光谱中出现的模式。为了测试该算法是如何学习这种联系的,Waldmann对它做了修改。他不再向ROBERT提供一张光谱,而是简单地告诉它:“水”,然后就让它生成自己的关于有水的系外行星光谱应是什么样的看法。
水之梦
为了检验 RPBERT (自动系外行星辨识)算法能否学会找出系外行星大气中的水在其光谱中留下的印记,让它去“做梦”。在输入了标签“水”之后,该算法给出了一个水的光谱的描述,它非常像真正的光谱。
“当我首次构建ROBERT时,它非常复杂”,Waldmann说:“当我让它‘做梦’时,它得出了一条真的非常嘈杂的光谱。然后我就意识到……”它有太多太多的神经元,以至于其中的很多并不活跃——它们只是坐在那里,产生噪音。在Waldmann减少了神经层和神经元的数量后,算法的梦开始成形了,带来了一张水谱线的逼真画像。但ROBERT是否也理解与这些模式相联系的隐含的物理原理?“我想它可以。没有什么理由说它肯定不可以”,Waldmann推测。但问题在于他并不肯定。这就是神经网络的问题——你并不知道它们知道些什么。”
构建和理解一个机器学习算法的棘手,及其输出的巨大潜力,都反映在了此类研究所获得的反响上。当Villar在美国天文学会的一次会议上展现了她的超新星研究工作时,她回忆道:“一些人确实为之兴奋。他们认为,它就是终极的办法,它将解开一切谜团。无疑也有些人完全拒绝它,他们认为它太可怕。”
但有很多天文学家预言,机器学习将在天文领域中发挥重要作用,也许会变得像望远镜那样重要。在下一个十年中,机器学习无疑将取代或者废除一些传统的分析技术。可能它还将更进一步,假如自然界是以非常复杂的法则所撰述的,以至于只有机器学习算法能够描述未来的巡天观测所获得的数据,那么情况将会如何?我们也许会构建出一些算法,它们会给予我们一个答案,但这个答案根本不是我们所能理解的。
“这是一种疯狂的想法”,Bloom谨慎地说。但是在面对机器学习时,这个想法的确出现了,“这就有点儿像一个糖果店里的兴奋小孩,而且是在所有孩子醒来之前。”
本文转自公众号“中国国家天文”
关注“漫步宇宙”
了解中国领先的太空资讯站
领取专属 10元无门槛券
私享最新 技术干货