官网hail.is
Hail是一个用于可扩展数据探索和分析的开源库,特别是基因组学,为各种规模的基因组分析提供强劲支持,云原生的基因组数据框架和批处理计算。Hail需要Python 3和Java 8 JRE[1], GNU/Linux 还需要 C 和 C++标准库(如果尚未安装)。有关库的高级用法,请参阅概述[2],有关全基因组关联研究的简单示例,请参阅GWAS 教程[3],以及安装页面[4]以开始使用 Hail。
最新版本0.2.80发布于 2021-12-15,实时更新中呀,未来可期!
Hail Query 提供功能强大、易于使用的数据科学工具。查询各种规模的数据:从笔记本电脑上的小型数据集到云中的生物样本库规模数据集(例如UK Biobank,gnomAD,TopMed,FinnGen和Biobank Japan)。
现代数据科学由数字矩阵(参见Numpy)[5]和表(参见R[6]数据帧和pandas[7])驱动。虽然对于许多任务来说已经足够了,但这些工具都不能充分捕获遗传数据的结构。遗传数据将基质的多个轴(例如变体和样本)与表格的结构化数据(例如基因型)相结合。为了支持基因组分析,Hail引入了一种功能强大的分布式数据结构,结合了矩阵和数据帧的特征,称为MatrixTable。[8]
Hail MatrixTable[9]统一了多种输入格式(例如.vcf、bgen、plink、tsv、gtf、bed 文件),并支持可扩展的查询,即使在 PB 大小的数据集上也是如此。Hail的MatrixTable抽象为科学提供了一个集成且可扩展的分析平台。
Hail | GWAS Tutorial[10]提供Hail功能的广泛概述,重点是操作和查询遗传数据集的功能。我们进行了全基因组SNP关联测试,并证明了需要控制由群体分层引起的混杂。 详细流程,基本是Python代码,是不是对Python党非常友好,学起来呀!
[1]Java 8 JRE: https://adoptopenjdk.net/index.html
[2]概述: https://hail.is/docs/0.2/overview/index.html
[3]GWAS 教程: https://hail.is/docs/0.2/tutorials/01-genome-wide-association-study.html
[4]页面: https://hail.is/docs/0.2/getting_started.html
[5]Numpy): https://numpy.org/
[6]R: https://www.r-project.org/about.html
[7]pandas: https://pandas.pydata.org/
[8]称为MatrixTable。: https://hail.is/docs/0.2/overview/matrix_table.html?highlight=matrix%20table
[9]Hail MatrixTable: https://hail.is/docs/0.2/overview/matrix_table.html?highlight=matrix%20table
[10]Hail | GWAS Tutorial: https://hail.is/docs/0.2/tutorials/01-genome-wide-association-study.html