动态 | 谷歌开源猎星代码,AI时代的天文爱好者们该换装备了!

天文爱好者们或许该学学机器学习了,在人工智能时代,用望远镜来猎星已经略 low。

AI 科技评论按:在去年 12 月份,谷歌训练了一个神经网络,通过分析美国宇航局(NASA)Kepler 空间望远镜获得的一些数据,发现了两颗系外行星。这项工作作为将机器学习的方法应用到天体物理中的典型案例,或将大大加速人类对系外行星的探索步伐。

而在今天,谷歌开源了他们的代码,任何有兴趣的同学都可以下载代码和数据,在自己的机器上运行。

AI 科技评论注:系外行星,指在太阳系之外的行星。天文学家估计银河系中可能包含多达 4,000 亿颗系外行星。截至 2016 年 2 月 22 日,已经被认定的系外行星总数为 2085 颗,这些行星分属 1331 个行星系,其中有 509 个多行星系。

天文学家怎么发现系外行星?

or 猎星入门

我们知道,行星是不发光的,我们之所以能够看到水、金、火、木、土星,是因为它们反射了太阳光线,但这些光线相比于恒星来说是微不足道的。当距离遥远时,即使那些巨大的恒星都可能难以察觉,更何况那些系外行星。

天文学家于是想到了另外一种办法——当行星经过恒星的前方时会遮挡一部分光线,这就会导致我们测量的恒星亮度稍微下降,当离开后又会恢复,于是在恒星亮度曲线上就会出现「U 形」凹陷;通过这种方法,天文学家可以间接地证明系外行星的存在。

不过,还有一些其他原因可能会导致测得的恒星亮度降低,例如双星系统、恒星黑子(类似太阳黑子)或者宇宙线打击到空间望远镜上所造成的仪器噪声。

为了在 Kepler 空间望远镜的数据中搜索行星,天文学家们使用了自动化软件来检测可能由行星遮光引起的信号,然后手动跟踪去确定这些信号到底是行星还是误报。为了避免检测到太多的信号,以至于他们没有那么多人手来处理,天文学家们对自动检测设置了一个截止点:只有信噪比超过固定阈值才会被提取出来;否则就丢掉。不过即使这样,仍然有大量的信号需要检测。例如到目前为止,已经有超过 30000 个信号被手动检测过,其中约 2500 个被验证为系外行星。

可能你也会想到,设置阈值是否会导致一些可能真实的行星信号被丢掉呢?答案是肯定的。但是,限于劳动强度太大,而降低阈值假阳性检测率会伴随着迅速增加,也即能够检测到实际行星的比例将越来越低。

然而,这些丢掉的信号里面可能存在一些我们很关切的天体——潜在的宜居行星(类似地球的行星)。这些宜居行星一般相对较小,而且围绕在相对较暗的恒星周围运动,其遮光信号将非常弱。因此在阈值以下丢掉的这些信号可能隐藏着仍未发现的宝藏。

来吧!机器学习!

考虑到数据的庞大和人力的密集,自然而言想到的一个方法就是:机器学习

基于以上的考虑,Google Brain 团队找到了 UT Austin 大学的 Andrew Vanderburg,Vanderburg 是一位著名的天体物理学家,专注于研究系外行星探测。他们合作开发了一个神经网络(CNN 模型),用来在低信噪比检测的信号中搜索系外行星。

就像所有基于神经网络的模型一样,这个模型也需要训练集。幸运的是,如前面所述,我们已经拥有 30000 个 Kepler 信号,这些信号已经由天文学家们人工手动检测和分类过了。

Google 团队使用了其中一半的数据用作训练,其中有 3500 个信号经过验证为行星或行星候选者。该网络的输入是同一个光曲线的两个独立视图:一个宽视图,允许模型检查光曲线上其他地方的信号(例如,双星会引起次级信号);一个是放大视图,使模型能够仔细检查信号的形状(例如将「U 形」信号和「V 形」信号区分开来)。

当完成模型训练后,Google 团队的研究人员用它研究了光曲线的的特征,以检验模型的输出是否与我们的期望相符。方法很简单,就是系统地掩盖输入光曲线的某一个小区域,来检测模型输出的变化。结果显示,如果掩盖那些对判断信号特别重要的区域,模型输出也会相应的改变;但如果掩盖的是不重要的区域,则不会产生显著的影响。

举例来说,下面这张为双星(而不是系外行星)的光曲线图,模型做出了正确的预测;其中绿色突显的点是最能影响模型输出的区域,因为它们是对应于双星系统的次级信号。当这些点被掩盖后,模型的输出中判断为系外行星的概率就从 0%突然跃升到 40%。

经过以上的验证后,研究人员对模型的预测能力就充满了信心。他们选择了 670 颗恒星,期望能在它们的光曲线中搜索到新的系外行星。之所以挑选这 670 颗恒星,是因为我们已知这些恒星有多个轨道行星,研究人员们相信这些恒星中应该还拥有一些尚未被发现的行星。

研究人员选取了远低于天文学家之前设置的信噪比阈值。正如预期的那样,神经网络模型判断的结果显示大部分信号为虚假信号,但令人兴奋的是,有少数极有可能是系外行星的候选者。随后经过检测判定了其中两颗为系外行星: Kepler-90i 和 Kepler-80g。

Amazing!!

一起猎星吧!

从 670 颗恒星中找到了两颗新的系外行星。这项工作可能只是一个开始,而且远没有完成,因为开普勒观测到的数据为 20 万颗恒星。谁知道当把这项技术应用到整个数据集时我们会发现什么。

独乐了不如众乐乐,Google Brain 团队今天开源了他们的代码。有兴趣的同学不妨加入这场大众的猎星行动,一起来寻找那颗可能属于自己的星球。

人工智能时代的天文爱好者,可能不再是拿着昂贵的器材到野外去看星空了,而是使用更强大的工具——机器学习,来搜索宇宙。

原文发布于微信公众号 - AI科技评论(aitechtalk)

原文发表时间:2018-03-09

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏量子位

来自小姐姐的入门推荐:7个基本机器学习算法Python实现

她总结了一份基本的机器学习算法,全部以纯Python(版本3.6+)实现。其中包括线性回归等七套算法,具体地址在此:

14220
来自专栏机器之心

资源 | Style2paints:专业的AI漫画线稿自动上色工具

52640
来自专栏AI科技评论

EMNLP 2018 详尽参会见闻

AI 科技评论按:本篇属于「顶会见闻系列」。每年这么多精彩的人工智能/机器学习会议,没去现场的自然可惜,在现场的也容易看花眼。那么事后看看别的研究员的见闻总结,...

25720
来自专栏大数据文摘

Uber优步打车:想你所想,知你所达

18050
来自专栏新智元

【会建模你也能当奥斯卡评委】机器学习预测奥斯卡6大奖项全中!

---- 新智元编译 来源:blog.bigml.com 编译:肖琴 【新智元导读】自去年成功预测第89届奥斯卡8项大奖后,机器学习和数据分析平台Bi...

34790
来自专栏AI科技评论

前沿 | IBM发明世界首个人造神经元,离人脑模拟更近一步

受人类大脑运行方式的启发,IBM苏黎世研究中心制成了世界上第一个人造纳米级的随机相变神经元。并在其基础上构建了由500个该神经元组成的阵列,让该阵列模拟人类大脑...

30580
来自专栏新智元

【干货】如何成为深度学习专家的七大步骤

首先为用Buzz做为点击标题的诱饵道歉,但是它确实是起到了一定的作用,并且吸引了大批读者来阅读此文章。 在我们的工作中,经常被问及的问题之一就是“从哪里开始学习...

37980
来自专栏人工智能快报

英特尔研究员展望人工智能与高性能计算的融合

高性能计算领域专业媒体HPCwire发表文章,介绍了英特尔研究人员对人工智能与高性能计算结合的技术展望。 将针对特定问题的深度神经网络扩展到具有数千个节点的大型...

29990
来自专栏量子位

Google Pixel 2拍照黑科技:单摄搞定背景虚化+内部潜伏神秘芯片

安妮 夏乙 发自 凹非寺 量子位 出品 | 公众号 QbitAI ? Google最新亲儿子Google Pixel 2系列一发布,拍照效果的好评就已铺天盖地。...

43040
来自专栏新智元

AI当“暖男”:给裸照自动穿上比基尼

【新智元导读】AI可以用来鉴黄,但有时会把含裸女的古典名画过滤掉。巴西的一组研究人员在JICNN上展示了一种新方法,使用生成对抗网络,给女性裸体照“穿上”比基尼...

13620

扫码关注云+社区

领取腾讯云代金券