在海量数据中寻找未知（下）

文章来源：企鹅号 - 牧夫天文论坛

周一·最新发现| 周二·牧夫专栏

周三·太空探索 |周四·观测指南

周五·深空探测| 周六·茶余星话 | 周日·天文周历

原文：http://www.astronomy.com/magazine/news/2018/09/seeking-the-unknown-in-cosmic-data

翻译：汪荣鑫

校对：陈艳玲、陆寅枫

本公众号系网易新闻·网易号“各有态度”签约账号

公众天文学

天文学家已经确定，我们银河系中存在多达4000亿颗恒星，而可观测宇宙中可能存在数千亿个星系。而且，在新的大规模调查的帮助下，这些数字可能会继续增长。得益于计算机，科学家们不再需要在摄影板上人工点数，但庞大的数据依旧超出了科学家的处理能力。

公众对科学方面的帮助可以追溯到一个多世纪以前，整个北美地区的鸟类观察者追踪鸟类的迁徙模式并将结果进行汇总。但直到互联网和网络游戏文化兴起，公民科学项目才真正走上快车道。公众科学的核心思想很简单：以有趣，类似游戏的方式让公众识别简单的物体或图案，吸引公众。通过公众科学，现在更多科学爱好者在闲暇时进行分析工作，这些工作量通常需要科学家花费数月。

2014年，NASA发布了标志性的哈勃超深场图像的更新版本。原版使用可见光和近红外光放大了南半球一小部分明显空旷的天空。对于2014年的哈勃超深空场，天文学家收集并纳入了紫外线数据，这有助于揭示宇宙中最年轻，最大，最热的恒星。

NASA, ESA, H. Teplitz and M. Rafelski (IPAC/Caltech), A. Koekemoer and Z. Levay (STScI), R. Windhorst (亚利桑那州立大学)

NASA艾美斯研究中心（NASA’s Ames Research Center.）的一个科学家团队是数据处理获得公众帮助的首批团体之一。该团队开发了ClickWorkers在线网站，处理的是20世纪70年代发送到火星的维京号轨道卫星收集的数据。从2000年开始，公众可以识别和标注火星表面的陨石坑。初步结果显示公众都热情并准确地完成了任务。不久之后，该公众科学项目得到了扩展。

“大多数公民参加是因为他们希望成为研究的一部分，”明尼苏达大学的天体物理学家Lucy Fortson说道，他曾在公众科学项目中广泛开展工作。“他们希望用额外的时间做一些有意义的事情。”

今天，天文学中有许多公众科学项目，例如宇宙之问（CosmoQuest），银河项目（Milky Way Project），还有也许最著名的是星系动物园（Galaxy Zoo）。在星系动物园，公众被要求确定所显示的星系类型：它是盘状的吗？是侧立的吗？中央凸起吗？这些特征可以通过眼睛快速识别，但其中的图像差异是计算机难以识别和分类的。

“人类实际上天生适合在大量的图像数据中得到偶然发现，”Fortson说。“凭借进化的优势，人类已经开发出这种惊人的视觉皮层，可以从未知中区分未知和已知。”

当然，使用未受过训练的公众并非没有挑战。人都会犯错误。幸运的是，参与识别的大量人员可产生平均值和群体共识用于判断，从长远来看，这可能比单个科学家的身份更准确。在星系动物园，40个不同的人检查每个星系，以创建一个可信赖的识别。通过仔细处理结果，个人可以根据他们的识别成功率进行不同的加权。通过这种方式，识别通常不符合群体共识的人可以被标记，使他们不会搞砸最终结果。

机器的崛起

群众识别并分类了数千张图像后，仍需要进行大量工作来分析数据。这就是计算机大显身手的地方。这些机器是体力劳动者，允许进行人脑望尘莫及的复杂的计算和比较。尽管过去计算机只能完全按照它们所说的去做，但是现在一部分计算机正在被教导自主学习。

天文学家正在使用一种称为机器学习的人工智能来让计算机自学如何在数据中找到规律。基于大脑如何运作，天文学家设计了一种称为人工神经网络的特定机器学习方法。正如人类大脑一样，这些神经网络在庞大的数据网络中建立联系。为了创建这些网络，科学家首先向计算机展示一个“训练集”，这是一系列包含计算机所需内容的例子 - 例如旋涡星系。随着时间的推移，积累足够的例子后，计算机将轻易识别旋涡星系，尽管它们的外观可能千变万化。

机器也可以被教导一项更加困难的任务：评估物体及其特征如何相互关联。例如，科学家们已经使用人工神经网络来研究星系如何形成星团以及该星系如何影响星系产生的恒星数量。只有在计算机的帮助下，科学家才能比较许多有意义的物理特性，例如星系质量，星系之间的距离以及星系之间的相互作用。通过比较数十万个星系，科学家能够对我们的宇宙做出普适的结论，这些结论不受小扰动的影响。

如果编码得当，人工神经网络可以为科学家提供深刻见解; 但是，它们也很容易被滥用。例如，如果训练集不够广泛，计算机将得出错误的结论。

人工神经网络的另一个缺点是它们需要大量的数据集来“学习”。幸运的是，在大规模调查的时代，大量数据集很常见。这意味着人工神经网络可以迅速将海量数据的问题转化为优势。公众可以帮助提供训练集，训练集越大，结果越好。

星系、星系团以及星系群和暗物质一起构成了一个广大的，像蛛网一样的结构，叫做宇宙网。这张图显示的只是宇宙网的一小片。在人工神经网络算法的帮助下，天文学家希望用这种模拟进行以前所未有的精度研究宇宙网。

NASA,ESA,AND E.HALLMAN(UNIVERSITY OF COLORADO BOULDER)

充满惊喜的未来

“我们收集这些庞大数据集的能力正在与我们解释这些庞大数据集的能力同步发展，”Ivezić说。“两个方向都很重要——收集数据的人和开发分析和解释工具的人。否则，我们只会被一大堆我们无法理解的数据困住。“

随着大尺度巡天开展，公众科学和机器学习技术的结合，看来将会出现许多新的意外发现。但这些发现的原理仍需要经过很多年才能解释。

『天文湿刻』牧夫出品

微信号：astronomycn

图片来源：佚名

谢谢阅读

发表于: 2018-10-052018-10-05 07:04:35
原文链接：https://kuaibao.qq.com/s/20181005A09EJI00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

在海量数据中寻找未知（下）

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐