大数据时代,科研要避免落入“数据陷阱”

由于研究人员使用了不完整的数据进行统计分析,那么结论必然会出现错误。

在蒋志刚看来,这是值得所有自然资源保护主义者和管理者正视的问题。

随着大数据时代的来临,数据密集型的科研方式已经越来越成为保护生物学研究的一个重要方向,这也意味着科研过程的成败与大数据的质量和完整性息息相关。

而对研究者来说,一旦忽视对数据缺陷的辨别,就可能落入大数据的“陷阱”。

最近,中国的科研人员在《美国科学院院刊》上发表文章,提出了这一值得被正视的问题。

一项“失实”的研究

今年6月,美国加州大学伯克利分校环境科学、政策和管理系Elsen等研究人员在《美国科学院院刊》上发表了一项研究成果,他们根据对世界保护地数据库(WDPA)的数据,分析了全球六大洲1010条山脉中44155个保护区的高程分布,从而量化海拔梯度的全球保护。

由于跨海拔梯度保护区强化了对生物多样性和生态系统发育多样性的保护,并且促进了气候变化条件下的物种范围迁移,所以这是研究者关注的问题。

早在2010年10月,《生物多样性公约》各缔约方通过了《生物多样性战略计划》(2011—2020年),该战略计划确定了2020年全球生物多样性目标(也称爱知目标)。

其中一条目标要求,到2020年,缔约国要至少保护17%的陆地面积和10%的海域面积。

这项研究认为,他们所观察到的海拔保护远低于理想状态。

就平均海拔保护力度而言,非洲和亚洲的山脉最低,欧洲和南美洲的山脉中等,北美洲和大洋洲的山脉最高。

尤其是一项数据统计结果显示,亚洲的高海拔地带,主要是青藏高原,I-IV类自然保护地(IUCN提出的保护地分类标准指南将全球保护地分为六类,其中I-IV类可以说属于较严格的保护地类型)的覆盖率很低,远达不到17%的目标。

但在2016年,中科院动物所研究员蒋志刚团队在Biological Conservation在线发表的有关中国生物多样性保护的文章曾经提到,过去40年里,中国自然保护区的数量有显著增加,截至目前,共有11个类型,保护区占地面积覆盖了全国国土面积的17%以上和海洋面积的3.5%。

中国是亚洲典型的多山国家,于是,针对国际同行的这项研究,蒋志刚与几位国内同行再次就中国国家自然保护区(CNNR)对不同海拔地区的覆盖率进行了统计分析,得到的结果也的确与他们产生了很大的差异。

中国不仅在青藏高原上已经建立了许多大面积的保护区,在海拔超过4000米的地区达到甚至超过了17%的“爱知目标”,且海拔越高,CNNR覆盖的面积比例越大。

蒋志刚等撰文指出,Elsen等人的研究结论明显与中国的实际情况不符。而造成这一分析结果偏差的原因就在“数据”。

成也数据,败也数据

中国的研究人员在世界保护地数据库中发现,列入该系统的中国自然保护区总共112个,其中只有一个保护地被归为IUCN保护地分类中的IV类,12个被归为不那么严格的保护类别VI类,剩余的则被视为未报告或不可分类。

也就是说,Elsen等人的这项研究所统计的,与中国相关的较为严格的自然保护区数据只有唯一的一个。

而事实上,截至目前,中国国家级自然保护区的数量就达到了428个,且属于IUCN保护地分类中最严格的类型。

如加上国内各个地方级别的自然保护区,总数达到了2700多个。

由于研究人员使用了不完整的数据进行统计分析,那么结论必然会出现错误,这就是蒋志刚所说的“数据陷阱”。但在他看来,这是值得所有自然保护者和管理者正视的问题。

世界自然保护地数据库(WDPA)是目前全球海洋和陆地自然保护地最大的数据库,收录了全球超过20万个自然保护地的信息,它的重要性不言而喻。

它是世界保护地的主要数据来源,但不意味着这些数据就是完全可靠的。

尽管,WDPA对数据提供者制定了严格的门槛,且根据其使用手册的说明,制定了定期更新、数据验证、质量检查的原则和机制,但作为一个覆盖全球免费开放的数据库,数据提供者并没有强制性义务,而是自愿提交的,那么至少在数据完整性上,必然会受到客观条件的影响。

除了数据不全,蒋志刚还提到,一个大数据库往往会存在分类问题。

WDPA使用的是IUCN保护地分类标准,但中国自然保护区分类与其并不一致。

他在不久前发表的《论保护地分类与以国家公园为主体的中国保护地建设》一文中指出,IUCN保护地分类系统定义模糊,缺乏量化标准,保护地的属性也常常存在非唯一属性的问题,比如可可西里自然遗产地,既是自然遗产地,也是严格保护区和荒野地、物种与生境保护区,还是陆地景观、国家公园。因此,保护地面积可能重复统计,数据整合可能出现问题。

他认为,世界保护地数据库涉及其他亚洲国家的数据时很可能也存在这些问题。

而且,这也是相同类型大数据库普遍存在的问题。

不过,对研究人员而言,数据库并不是唯一可利用的数据资源。

蒋志刚想要强调的是,尤其在宏观问题研究中,研究者在使用单一数据库资源时必须足够审慎,如果无法辨识数据完整性,宁愿不发表论文。

“这关系到科学家的职业操守。”蒋志刚说。

科学的生命力在质疑与证伪

“我们已经进入了一个利用大数据识别大格局、发现大规律的年代。尤其在保护生物学中,应用大数据是时代潮流。”

蒋志刚解释,大数据可以帮助科学家节省大量野外收集的时间和资源,将研究水平提高到以往研究者所不能开展的空间尺度与时间跨度。

同时,大数据对微观的保护生物学的研究也同样重要,比如来自Genbank的数据,对于了解、比较濒危物种的研究、种群历史和演化有重要意义。

也正是由于大数据的重要性,数据库自身在提升数据质量和完整性方面需要作出更多的努力。

“比如,数据库管理者应该更主动地与每个提供数据报告的国家建立联系,针对大数据库数据来源复杂、数据质量良莠不齐等问题,管理者和维护者在执行层面就应该更认真地完成定期审查、数据查错和验证过程,尽可能提升数据的真实性与准确性,消除混乱,弥补缺陷。”他告诉《中国科学报》记者,“科学的生命力正是在于质疑与证伪。”

只有如此,研究者才会有一个良好的数据库开展进一步的分析,发现真实的规律,避免陷入大数据库的缺陷。蒋志刚坦言,“这不能依靠大数据的用户来验证数据,也不能依赖于科学期刊的审稿人和编辑来验证”。

相关论文信息:

https://doi.org/10.1073/pnas.1720141115

https://doi.org/10.1016/j.biocon.2016.05.005

DOI:10.17520/biods.2018168

《中国科学报》 (2018-10-19 第4版 自然,原题:研究失实,祸起数据)

注意!微信又双叒叕更新了......

此次改版后,每个用户最多可以设置12个常读订阅号,这些订阅号将以往常的大图封面展示。为了不错过中国科学报的推送,请根据以下操作,将我们“星标”吧!

请按下方二维码3秒识别

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20181020A0ALHQ00?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码关注腾讯云开发者

领取腾讯云代金券