导语:随着科学数据集在规模和复杂性方面的增加,在没有自动化工具的帮助下,标记,过滤和搜索这些大量信息的能力已成为一项费力,耗时且有时不可能完成的任务。
考虑到这一点,来自劳伦斯伯克利国家实验室(伯克利实验室)和加州大学伯克利分校的一组研究人员正在开发创新的机器学习工具,以从科学数据集中提取上下文信息,并自动为每个文件生成元数据标签。然后,科学家可以通过基于网络的搜索引擎搜索这些文件,以获取伯克利团队正在构建的科学数据,即科学搜索。
作为概念验证,该团队正在与位于伯克利实验室的能源部(DOE)分子铸造厂的工作人员合作,以展示设施仪器捕获的图像的科学搜索概念。该平台的测试版已经提供给Foundry研究人员。
“像科学研究这样的工具有可能彻底改变我们的研究,”国家电子显微镜中心(NCEM)和科学搜索合作者的分子铸造研究科学家Colin Ophus说。“我们是纳税人资助的国家用户设施,我们希望广泛提供所有数据,而不是选择发布的少量图像。但是,今天,这里收集的大部分数据只是真的得到了少数人,数据生产者,包括PI(主要调查员),他们的博士后或研究生, 看着,因为目前没有简单的方法来筛选和共享数据。通过使这些原始数据易于搜索和共享通过互联网,科学搜索可以打开这个“黑暗数据”库。
今天,搜索引擎无处不在用于在互联网上查找信息,但搜索科学数据提出了一系列不同的挑战。例如,Google的算法依靠200多条线索来实现有效搜索。这些线索可以以网页上的关键词,图像中的元数据或来自数十亿人的点击他们正在寻找的信息的观众反馈的形式出现。相比之下,科学数据有多种形式,与普通网页截然不同,需要特定于科学的上下文,并且通常还缺少元数据来提供有效搜索所需的上下文。
在像分子铸造厂这样的国家用户设施,来自世界各地的研究人员申请时间,然后前往伯克利免费使用极其专业的仪器。Ophus指出,分子显微镜上的当前相机可以在10分钟内收集高达1TB的数据。然后,用户需要手动筛选这些数据以查找具有“良好分辨率”的高质量图像,并将该信息保存在安全的共享文件系统上,或者保存在最终带回家进行分析的外部硬盘驱动器上。
通常,来到分子铸造厂的研究人员只需要几天的时间来收集他们的数据。因为手动将注释添加到太字节科学数据是非常繁琐和耗时的,并且没有标准可行,所以大多数研究人员只需在文件名中键入速记描述。这可能对保存文件的人有意义,但通常对其他人没有多大意义。
结语:“当科学家试图稍后查找数据或试图与其他人分享数据时,缺乏真实的元数据标签最终会引发问题,”伯克利实验室计算研究部(CRD)的科学家兼联合首席研究员Lavanya Ramakrishnan说。科学搜索项目。“但借助机器学习技术,我们可以让计算机帮助解决用户的繁琐工作,包括为数据添加标签。然后我们就可以使用这些标签有效地搜索数据。”
领取专属 10元无门槛券
私享最新 技术干货