学习
实践
活动
工具
TVP
写文章
专栏首页DrugAINature Protocols | 基于机器学习和并行计算的代谢组学数据处理新方法

Nature Protocols | 基于机器学习和并行计算的代谢组学数据处理新方法

代谢组学是对某一生物或细胞在一特定生理时期内所有代谢产物同时进行定性定量分析的学科,被广泛用于揭示小分子与生理病理效应间的关系。目前,代谢组学已经被应用于药物开发的各个阶段(如药物靶标识别、先导化合物发现、药物代谢分析、药物响应和耐药研究等)。基于代谢组学的高性价比特性,它被药学领域的研究者给予了厚望,有望加速新药开发的进程。然而,代谢组领域还面临着严重的信号处理与数据分析问题,对其在新药研发中的应用构成了巨大挑战。为了有效消除由环境、仪器和生物因素所引入的不良信号波动,就需要开发针对代谢组信号系统优化的新方法,为不同组学研究量身定制最优的数据分析策略。

针对上述问题,浙江大学药学院和智能创新药物研究院朱峰教授团队与阿里巴巴-浙江大学未来数字医疗联合研究中心于近期合作在《Nature Protocols》发表了题为“Optimization of metabolomic data processing using NOREVA”的研究工作。该工作报道了一套基于机器学习和并行计算的优化组学信号处理策略的新方法。该方法通过大规模扫描现有的海量信号处理流程,针对用户给定的代谢组学原始数据,可以快速地优化出性能最佳的组学数据处理流程。这一方法实现了对药学领域常见的“时间序列”和“多分类”代谢组学问题的数据处理,对药物靶标发现、药物代谢、药物响应与疾病发生发展的病理学机制研究都具有重要的价值。

1基于机器学习,开展代谢组数据处理流程的多角度评估

传统的代谢组学数据处理方法往往只关注对组内样本差异的弥合。然而,在真实世界的药学研究中(如候选靶标的发现、药物敏感性研究等),还需要考虑对数据扰动的稳定性、样本量大小的敏感性等。因而,此项研究在传统单一评估的基础上,基于机器学习算法,创新性地开发了一套多角度评估代谢组学数据处理效能的新策略。具体来说,该策略通过评估数据处理方法在减小组内样本差异,差异代谢分析,标志物识别稳定性,分类准确度,生物金标准一致性等五个相对独立方向上的效能,实现了多角度的系统评估。与传统方法的比较显示,那些在传统上被认为最优的数据处理流程往往无法满足此项目多角度评估的要求。

2针对药学问题,实现时间序列和多分类代谢组数据处理

时间序列和多分类问题是药学研究中的常见问题,因而已经成为当前药物代谢组学研究的前沿热点。有别于传统的二分类研究,时间序列代谢组研究可以动态监测不同的生物过程(如微生物生长、疾病发展、药物代谢与响应等)。同时,多分类代谢组对揭示某些生理过程、疾病转移等潜在机制也至关重要。因而,此项研究全方位优化了适用于时间序列和多分类代谢组学的信号处理流程。在时间序列代谢组学研究中的实际应用显示,此项研究所推荐的数据处理流程(下图排名前五)可以有效的重现犬尿氨酸(kynurenine)在感染疟疾前、诊断疟疾后和抗疟疾治疗后随时间的动态变化。这一结果与排名靠后的流程(下图排名最后的五名)形成了鲜明的对比,证实了此研究开发的新方法在特定药学研究中的有效性。

对多分类问题的进一步研究显示,新方法所推荐的数据处理流程可以同时复现多种加标化合物(catechin, phloridzin, epicatechin, quercetin-3-galactoside, quercetin-3-rhamnoside, quercetin-3-glucoside, quercetin, trans-resveratrol, and cyanidin-3-galactoside)的浓度梯度差异,突破了传统方法在此类问题上的长期技术限制。在多分类组学大数据的基础上,再次验证了新方法在组学数据处理效能评估上的可靠性。

3基于并行计算,加速对海量信号处理流程的大规模扫描

代谢组学数据处理由多个步骤组成,包括数据过滤、缺失值填充、基于质量控制样本的信号校正、数据转换、归一化等。由于各步骤中可供选择的方法很多,因而产生了丰富多样的信号处理流程。同时,项目研究团队在前期研究中,提出了信号处理的组合策略(Brief Bioinform. 21: 2142-2152, 2020),进一步丰富了信号处理流程的多样性(最终得到超过五千种组合流程)。这些多样流程的存在为科研工作者如何针对不同的数据找到合适的方法带来了巨大困难,因而需要运用此项目所开发的新方法实现对海量信号处理选项的全方位系统扫描和评估。为了解决大规模扫描海量信号处理流程过程中所面临的计算资源瓶颈问题,此项研究首次将并行计算架构引入代谢组学数据处理。测试显示,相比串行运算来说,新方法整合的并行计算仅在个人电脑上就将运行效率提高了10倍以上。

参考资料

J. B. Fu, Y. Zhang, Y. X. Wang, H. N. Zhang, J. Liu, J. Tang, Q. X. Yang, H. C. Sun, W. Q. Qiu, Y. H. Ma, Z. R. Li, M. Y. Zheng, F. Zhu*. Optimization of metabolomic data processing using NOREVA. Nature Protocols. doi: 10.1038/s41596-021-00636-9 (2022)

https://www.nature.com/articles/s41596-021-00636-9

文章分享自微信公众号:
DrugAI

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!

作者:DrugAI
原始发表时间:2021-12-31
如有侵权,请联系 cloudcommunity@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 生信爱好者周刊(第 25 期):从事生信工作,究竟是远见者,还是工具人?

    本杂志开源(GitHub: ShixiangWang/weekly[1]),欢迎提交 issue,投稿或推荐生信相关内容。

    王诗翔呀
  • 生信爱好者周刊(第 30 期):生信的核心修炼道路在哪里?

    值得思考的是,如果你作为一名纯小白,你认为能够为你提供系统学习的生信核心修炼体系是怎么样的?

    王诗翔呀
  • BDTC 2017丨聚焦大数据在医疗行业的最新实践

    12月7-9日,由中国计算机学会主办,CCF 大数据专家委员会承办的2017中国大数据技术大会(BDTC 2017),在北京新云南皇冠假日酒店隆重举行。本次大会...

    挖掘大数据
  • 150秒内快速诊断脑瘤!最新AI光学成像系统在《Nature Medicine》发表

    人工智能正在各个领域大放异彩,不断扩充应用的版图!在手术室也显示出了新的希望!新的研究表明,机器学习可以在150秒以内诊断出脑肿瘤,所需时间仅仅是人类专家的一小...

    新智元
  • 使用melonnpan通过扩增子或宏基因组测序数据有效预测微生物群落的代谢图谱

    热心肠研究院的这个介绍让我对这个软件产生了好奇,我决定学习一下这个软件的使用,看看它和picrust的区别在哪,picrust2刚刚发布,看看是棋逢对手还是略胜...

    用户1075469
  • velocyto||sc-RNA速率:一种细胞轨迹推断方法

    18年nature发了一篇单细胞方法类文章,讲得就是如何利用RNA velocity来做细胞发育路径的推断。

    生信编程日常
  • 代谢组学服务找CRO公司关键点竟然在这里

    组学服务商涉及方面太多,既包含CRO公司品牌、商誉、组织人才、实施案例、客户口碑、公司大小,还包含技术细节、设备实力、人才能力、数据处理能力、服务效率、服务人员...

    摩赛恩科技
  • 徐峻|人工智能与药物设计学:新范式探索 (6)

    随着信息技术的不断发展,药物设计方法学的新概念、新方法和新思路持续更新,药物发现范式也与时俱进。人工智能作为新工具,已应用于药物发现过程的多个方面,引起了制药行...

    智药邦
  • J Biosci|分子相互作用网络:机遇、挑战和前景

    2022年4月20日,印度CSIR国家化学实验室的RAM RUP SARKAR研究团队在Journal of biosciences上发表论文Emerging ...

    智药邦
  • Nat Biotechnol | 杨弋团队报道RNA光遗传学工具,可时空精确操纵活细胞RNA代谢与功能

    生物遗传中心法则是指遗传信息从DNA传递给RNA,再从RNA传递给蛋白质,即完成遗传信息的转录和翻译的过程。然而在过去的几十年里,生命科学的舞台一直被 DNA ...

    生信宝典

扫码关注腾讯云开发者

领取腾讯云代金券