有小伙伴在交流群问了一下tSNE和UMAP的问题,就有人“友情回怼”了一下说要理解“降维聚类分群”原理就得看生物信息学算法了。
然后甩了一个很古老的在线书籍:https://compeau.cbd.cmu.edu/online-education/bioinformatics-algorithms-an-active-learning-approach/
Bioinformatics Algorithms: An Active Learning Approach is a joint project with Pavel Pevzner from the University of California San Diego. First published in 2014, this textbook is now in its third edition and has become a bestseller in the field of computational biology, achieving adoption by over 200 instructors in 45 countries.
如下所示:
每个章节都从一个生物学问题开始,然后自底向上教授解决这个问题所需的计算方法。
这本书通过将生物问题与计算方法相结合,为读者提供了一种主动学习生物信息学算法的途径。
老实说,我没有啃下去里面的算法,因为确实是太底层了,先不说里面是否有tSNE和UMAP的细节问题,里面的公式和示意图已经是试图很清晰的展现给我算法细节,但是它进不去我的脑子啊!!!
很清晰的展现给我算法细节
如果是学单细胞数据分析之前得掌握如上所示生物信息学算法,那就基本上劝退了99%的入门者。绝大部分生信工程师都是应用级,完全没必要深入学习底层算法了。
前面提到了,绝大部分生信工程师都是应用级,完全没必要深入学习底层算法了。但是算法仍然是有人在开发的, 比如南开大学数学科学学院陈盛泉课题组:
感觉啊,现在的很多生物信息学前沿工作,都是数学系或者自动化相关的人弄的,反倒是生命科学缺席了。。。我也在群里号召大家讨论过这个问题:
其实从零开始学单细胞数据分析是一个伪命题,没可能说最简单的r或者Python编程语言都不会就可以直接上手处理数据。目前网络上公开了海量的单细胞转录组降维聚类分群,但凡是有一点点编程基础,都可以很快follow那些代码出图,然后结合文章去理解每个图表结果来掌握单细胞转录组数据分析。
除了编程基础之外,那就是理解统计可视化的生物学含义了,单细胞转录组是普通转录组的升级,理论上之前我们转录组数据分析的常见思维方法都可以复用的,无论是转录组测序还是表达量芯片,都是有分组有差异分析有富集分析有基因集打分。所以,掌握一些传统转录组数据分析策略是会很有帮助的。