前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >浙江大学在Nature Communications发文揭示进化树“再现性危机”

浙江大学在Nature Communications发文揭示进化树“再现性危机”

作者头像
生信技能树
发布2020-12-07 11:45:22
6210
发布2020-12-07 11:45:22
举报
文章被收录于专栏:生信技能树

近日,浙江大学农业与生物技术学院沈星星研究员、陈学新教授以及美国范德堡大学Antonis Rokas教授课题组联合在Nature Communications发文阐明:系统发育树存在~9% -18%的不可重复性危机

研究结果可重复或可再现性是科学界的基石。在过去的几年里,科学家对已发表结果可重复性的担忧不断增加,导致了“再现性危机”一词的出现。系统发育树是进化生物学研究的基础。例如,系统发育树通常被用来研究基因、基因组、物种的演化过程。2013年报告称:由于缺乏数据公开化,6277 / 7539(83.3%)研究课题的系统发育树是不可重复的。这一研究促使了多个公共存储数据库的诞生(如figshare)。

  • 公共数据库提供的信息是否足够系统发育树的重复构建?
  • 此外,系统发育树的构建参数、计算资源(CPU处理器型号、线程数等)均存在差异。这些差异是否会导致不可重复的系统发育树?
  • 什么原因导致不可重复的系统发育树?
  • 如何规避不可重复危机?

回答这一系列问题有利于提高系统发育树的再现性,同时为系统发育学软件开发者提供重要的指导依据。

本研究收集了15个动物、植物、真菌系统发育基因组学数据集(总共19414个基因比对数据)。这15个数据集包含非编码DNA (DNA)、外显子(DNA)、氨基酸(AA)三类数据集。基于19414个基因数据集,我们检验了常用系统发育树构建软件IQ-TREE和RAxML-NG可重复性。对每一个基因,运行两次完全相同的参数(Run1和Run2),并比较Run1和Run2产生的系统发育树是否一致(图A)

研究结果表明:IQ-TREE和RAxML-NG分别存在81.9%和90.7%的系统发育树可重复。比较IQ-TREE和RAxML-NG之间,仅20.3%系统发育树可重复(图B和C)。利用UCE、AHE等捕获技术收集的数据存在更高比例的不可重复性。

我们如何提高系统发育树的可重复性?

除了基本必备的参数(如基因、软件信息、替换模型、树搜索的数量),我们还应该提供处理器类型、线程数量和随机起始数的信息(图3)。考虑到系统发育基因组数据集中存在的成百上千个基因,一个更实用的方是公布每个分析的日志文件。因为日志文件包含所有关键参数 (例如基因名、程序名、树搜索的数量、替代模型、处理器类型、线程数量和随机起始数)。

浙江大学农业与生物技术学院沈星星研究员为论文第一作者兼共同通讯作者,美国范德堡大学Antonis Rokas教授为共同通讯作者。特别值得一提是浙江大学陈学新教授给予大力支持和悉心指导。另外,范德堡大学和威斯康星大学麦迪逊分校的李远宁博士后、Chris Hittinger教授也参与了该研究。

沈星星课题组主页:https://shenxlab.com/

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-12-04,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档