首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

数据密集型科研范式对科学研究的影响

随着互联网和信息技术的发展,各学科领域产生的数据呈现爆炸式的增长, 海量科学数据的迅速产生、广泛传播和有效组织保存,正成为科学研究的有力工具甚至新的基础(梁娜和曾燕,2013)。在这种新型科研环境下,数据的高速增长对数据存储和传输有了更高的要求。数据类型的多元化,除了结构化数据外,还涌现出更多半结构化甚至非结构化数据,其对数据的管理和集成有着更高的要求。数据爆炸和应运而生的数据处理技术催生了数据密集型科研范式的到来。

▲ 数据驱动的科学研究过程(曹嘉君和王曰芬,2018)

数据密集型科研范式的核心特征是以数据为驱动,由计算机从海量数据中发现相关性,而不进行假设,预测结果更为科学。此外,多学科领域科研人员的协同创新也成为数据密集型科研范式的又一主要特征,成为帮助科研人员从海量数据中获得新发现的有力工具。从数据密集型科研范式具有的主要特征来看,数据密集型科研范式更加契合科学研究本身的特点,能够更加科学、有针对性地解决问题。它已经从最初吉姆·格雷提到的e-Science 场景扩展了更多的内容,涉及科研新场景、更多参与方、日新月异的技术与算法、政策和开放科学等,对当前和未来的学科研究工作产生了更为深远的影响

催生出科学研究新场景

数据密集型科研范式扩大了传统科研范式的适用范围,更能够适应当代科学研究的数据巨量、数据相关性强、更加依赖工具仪器、学术信息交流频繁等新的特征。数据密集型科研范式的到来,催生出了科学研究的新场景(王鹏飞,2020)。运用大数据技术和人工智能技术搭建学科领域的数据模型与引擎系统,产生了新的科研工作流。

第一,数据的采集与存储,即实现快速的数据访问及精准搜索。

第二,海量数据的全链条管理, 即实现多源异构数据的获取、融合、分析、管理及分享。

第三,数据分析算法的发展。数据密集型科研范式改变了传统的数据分析方式,使科学研究人员可以通过便利的交互界面进行数据的相关分析,得出尚未预见的结果。

第四,数据的可视化。过亿数量级的数据已经远远超出了人类统计学的理解能力,如何高效精准地展现大数据的分析结果以被人脑所接受和理解成为科研工作中的重要部分。一种新型的、高性能的可视化工具和数据分析算法还需进一步的研究发展。

▲ 数据密集型科研范式的相关影响因素

数据被视为研究基础设施

在数据密集型科研范式时代,研究者深知科研数据的重要性和数据驱动科研的价值。人们也逐渐认识到,研究基础设施是国家基础设施的重要组成部分,数据资源现在也被归类为国家基础设施的合法部分。在英国,国家基础设施委员会(National Infrastructure Commission,NIC,https://www.nic.org. uk)已委托多项活动,旨在确保数据在以公众利益为前提下进行管理,其将数据视为基础设施,并重点介绍了正确的数据收集和关于数据共享的标准——来自政府和政府研究机构的数据。

2009 年以来,支持研究的数据基础设施已经得到极大的发展,许多国家采取开放的数据倡议并建立基础设施和工具来支持这些目标。澳大利亚网站DATA.GOV.AU(澳大利亚政府数据)是发展得更好的案例之一,其中的数据已被视为国家资源。其他国家也纷纷效仿,如英国和美国各自开放数据站点DATA.GOV.UK 和DATA.GOV,以提供对国家数据资源的类似访问。

提高了科研相关方对数据重视的程度

数据的可用性正在推动政策和行为的改变。大洋按钮挑战(Big Ocean Button Challenge)为应用程序提供奖励,基于使用这些数据为渔业、航运、海洋酸化、公共安全和探险提供服务。

科研相关的多方对数据的态度正在改变。科研资助机构现在坚持认为所有研究提案都应包含数据管理计划。同时,政府和组织等已经建设数个数字数据存储库,用于存储研究数据。2012 年,美国建立了研究数据出版数据库Dryad,2018 年Dryad 的24 000 个数据集下载次数为45 000 次。在欧洲, 欧盟委员会的OpenAIR 项目与欧洲核子研究中心合作建立Zenodo(https:// zenodo.org), 其是一个科研产出库, 包括数据和软件。2019 年, 艾尔弗·斯隆基金会(Alfred P. Sloan Foundation)资助了Dryad 和Zenodo 合作,使开放的研究实践更加适合研究人员。

给学术信息交流带来的深刻变化

在数据密集型科研环境下,数据成为科学研究的新对象、新工具和新范式(王鹏飞,2020),贯穿于整个科学研究的过程。通过计算可操作的方式,人们创造和传播学术记录,并把数据集和学术信息交流中产生的各类知识整合进学术记录,形成新的“超级”学术记录(张文飞等,2016)。人们可以一次就对数千篇文章进行“阅读”分析,找出其中的结构、演变与疑难,支持发现那些隐藏在大量结果中的关联关系和科学规律(贺威和刘伟榕,2014),这改变了原本仅能依赖个人一篇一篇地阅读文献或分析科学数据的情况,打破了知识在微观上的静态局限和个人或小组的认知限制。不仅可以将阅读、分析与对科学知识的注释、讨论、检验、扩展结合起来,还可以将个人“阅读”与群体“阅读”结合起来,使得单篇文章向由数字文献库与科学数据库组合成的“超级” 科学记录转移,进而实现知识实验室。科学知识的出版、传播走向开放获取, 科学家乃至社会公众能迅速获取全社会产生的科学知识,还能参与到协同创新中去创造知识,支持跨学科领域、跨知识创新价值链各环节等各层次的协同化知识发现和应用。

在数据密集型科研活动中,科学共同体将成为新的科研组织模式。大数据的泛化存在,以及科研领域开放力和包容力的不断增强,使得科学家能不断利用外部数据进行科学研究,促进了彼此间的学术信息交流。科学家通过共享科研成果和利用其他团队的成果,使得科研过程大大缩短,由此逐渐形成一个相互协作的科学共同体,在这一共同体中,科学家可将更多精力用于自己更为熟知的领域的创造工作。此外,在数据共享中,科学家个人的发现能及时得到科学共同体的检验与校正,实现优势互补、资源共享和合作攻关。

对支撑科学研究的数字基础设施提出更全面的需求

大数据、人工智能等技术与科学研究活动不断交互融合引发了科研创新方法的颠覆性变革,科学发现已进入数据密集型科研范式的阶段。这一科研范式的转变对支撑科学研究的数字基础设施在数据、知识、工具、模型算法、协作等方面提出了更为迫切的需求。

知识基础设施需求层面,科技界对传播、管理和处理全球知识的基础设施有了新的需求,将知识的交换、共享和处理作为所有应用和服务的核心,急需建立相应的机制。

数据采集、分析等工具需求层面,各种实验涉及许多学科和大规模数据,特别是高数据通量,使得开发合适的采集、管理和分析工具成为巨大的挑战。因此,需要创建一系列通用的工具以支持从数据采集、验证到管理、分析和长期保存等整个流程。

海量数据计算方法需求层面,不仅需要大规模的数据传输和保存能力,还需要能迅速提供普遍的个人化的低成本、高容量、高效率的存储与计算能力,使个人有可能拥有几年前只有超级计算中心才可能有的计算能力、存储能力甚至个性化的计算云(梁娜和曾燕,2013)。此外,还需要可视化数据分析和知识发现的新方法,以便使研究者从这种科学数据新表现形态中获得洞察力。

科学数据管理需求层面,数据密集型科研范式下的科学数据管理成为科研管理的重要环节, 科学数据需要得到详细的描述和完整的保存,并能够被合理共享和有效再利用。针对科学数据格式多样,数据采集、处理、转换相对复杂,以及数据互操作需求更高的现状,需要为数据互操作扫清障碍。此外,科学数据管理还涉及数据权益管理问题,对数据的获取、使用和保存的权利,以及数据各利益相关方在学术评价和科研评价中应享有的认可和激励问题。数据素养在数据密集型科学发现时代显得更为重要,掌握数据采集、处理、转换、传播、保存等的方法、政策与工具,具备良好的数据素养是获得成功的科学决策的重要影响因素之一。

▲ EOSC 架构(Manola et al.,2019)

欧盟委员会于2016 年提出欧洲云计划,其中包含建设欧洲开放科学云(The European Open Science Cloud,EOSC)。EOSC 将汇集现有和新兴的数据基础架构,为所有欧洲研究人员存储、管理、分析和重用数据创建一个值得信赖的虚拟环境,使其从数据驱动的科学中获益。EOSC 通过向欧洲数据基础设施部署所需的超级计算能力、快速链接技术和高容量云解决方案,创造了适用于经济和社会所有领域的解决方案与技术,使欧洲成为科学数据基础设施的全球领导者。

推动全球“开放科学”运动

经济合作与发展组织将开放科学定义为,公共资助的研究成果的主要产出——出版物和研究数据以数字格式公开,没有限制。EC FOSTER 项目(Fostering the Practical Implementation of Open Science in Horizon 2020 and Beyond)以促进开放科学的实际实施为目标,开放科学更加应该将开放的原则延伸到整个研究周期,尽早地促进共享和合作——这是一个回归英国e-Science 倡议和愿景的原则。2016 年科学数据领域公布的公平数据原则,可能在这一领域发挥重要作用(Dumontier,2022)。公平数据原则强调机器可操作性,以实现计算系统在很少或根本没有人为干预的情况下发现、访问、互操作和重用数据的功能。除了这些标准和政策的产生之外,相关机构已经开发出与数据和数据政策相关的数据和元数据标准,以推动世界范围内的数据共享、系统互操作、科研合作与创新(Sansone et al.,2019)。

为了更好地适应数据密集型科研范式的出现和发展,图书馆积极调整定位,参与到国家需要、科研需求中,推动着数字资源建设、科学数据管理、开放获取运动和开放科学框架。下一代“数字图书馆”的数字资源建设和服务将更贴近科研范式的发展和应用场景。

出版社等交流传播平台也不断调整其开放政策、仓储政策、数据政策,以便贴合来自科研人员和科研资助者的要求;同时,他们也积极进行文献资源的数据化、提供数据仓储服务、支持科研人员对数据的再利用,进一步研发科研问题的解决方案,包括引入更多资源合作方来打造数据集成平台、建立整套的科研工作流和工具、提出科研数据管理办法、积极加入高能物理开放出版资助联盟。

本文摘编自《走向第四范式:数据密集型科学研究》(赵瑞雪等编著. 北京:科学出版社,2024.1) 一书“第 1 章 数据密集型科研范式概述”,有删减修改,标题为编者所加。

ISBN 978-7-03-076988-6

责任编辑:石 卉 吴春花

大数据智能时代,数据作为新型生产要素已成为科研创新的基础战略资源。由于数据爆炸式增长,海量异构科学数据需要被更有效地分析、处理,以促进科学知识发现,由此产生了科学研究第四范式——数据密集型科研范式。本书在阐述数据密集型科研范式的概念、演变、特征、需求、发展趋势和面临的挑战基础上,重点调研、梳理、分析国际主流的数据密集型科研典型案例,剖析国内外数据密集型科研相关政策规划及数字基础设施建设项目,并对推进我国数据密集型科研范式和加强新型科研基础设施建设提出措施和建议。

本书可供科研管理决策者、科技创新人员、新型基础设施建设者阅读参考。

(本文编辑:刘四旦)

一起阅读科学!

专业品质  学术价值

原创好读  科学品位

硬核有料  视听科学

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OttJSlfKXIZ9G8cxP5Ysap-w0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券