“本手、妙手、俗手”是围棋的三个术语。
对于初学者而言,应该从本手开始,本手的功夫扎实了,棋力才会提高。一些初学者热衷于追求妙手,而忽视更为常用的本手。本手是基础,妙手是创造。一般来说,对本手理解深刻,才可能出现妙手;否则,难免下出俗手,水平也不易提升。
其实各行各业都有自己的“本手、妙手、俗手”,我们拿生物信息学数据分析举例跟大家探讨一下:
本手就是基础功啦, 再怎么强调生物信息学数据分析学习过程的计算机基础知识的打磨都不为过,我把它粗略的分成基于R语言的统计可视化,以及基于Linux的NGS数据处理:
当然了,如果仅仅是专注于计算机基础知识很容易走偏,成为了IT技术人员,虽然这里我们拿Linux的shell语言和R语言举例来说明编程能力,但其实所谓的编程能力就是解决问题的能力。
有了计算机基础知识还不够,还需要一些数据库,数据资源,测序等杂项知识,才能过渡到各种ngs数据的处理,包括但不限于Microarray, RNA-Seq, ATAC-Seq, Chip-Seq, and single cell RNA-Seq,现在是多组学时代,其实这些技术流程的视频教程好几年前我就全部免费共享在b站,目前,已经组建了微信交流群的有下面这些(节选):
也为每个组学视频课程,设置了练习题,不知道大家是否有学习呢?
哪怕是你掌握了再多的ngs流程,计算机编程知识再牛,但是一直都是做基础分析,比如:
仍然只是一个兢兢业业的合格的打工人,咱们的生物信息学技能目前绝大部分都是为科研打辅助,而常规分析大多被自动化流程给纳入了,大家可以做,但是没有竞争力。不过这确实适合初学者打基础,所以我们《生信技能树》也有类似的的明码标价的生物信息学数据分析服务:
主要是给我们大量的实习生和学徒准备的,在他们完成小项目的过程中我就发现不同的人的悟性,态度,潜力,千差万别。
要成为一个有灵魂的工程师,不仅仅是上面提到的基础分析,也不是我们常规所认知的高级分析,比如转录组方面的融合基因,可变剪切,单细胞的转录因子,拟时序,细胞通讯,而是解释数据的能力,以及创造性的组合多种分析结果并且个性化展示数据的可能性。无论我们跑多少软件多少工具包得到多少图表,都是可以轻松的被替代。
比如文章《CD177 modulates the function and homeostasis of tumor-infiltrating regulatory T cells》的 Fig. 4 为了说明 CD177 is a marker for a subpopulation of TI Treg cells. 就对拟时序分析进行了一些自定义的展现,如果你是一直看我们的教程而且仅仅是会帮助文档的那些常规分析,就只能是望洋兴叹。
前面我们提到了,一个普通的二分组的表达量差异,实际上是超级简单的标准分析,同理,一个基于生物学基因集的在某个预后模型也是如此,它就应该是学生们的作业,不该成为一个课题一个文章。但是偏偏是有大量的俗不可耐的类似的成果被发表,比如我在 25张图带你玩转表达量差异分析思路, 列出来过:
它可以让你系统性的学到生物信息学常见图表制作以及其生物学意义,但是它确实不应该是一个文章。其它大家耳熟能详的套路化批量数据挖掘策略有;
(mRNA,lncRNA,miRNA,甲基化,蛋白)均可走上述流程,也就是说33种癌症乘以5种亚型,乘以5种分子,乘以15个策略就已经是过万篇数据挖掘课题了,而且你仔细搜索一下就发现,真的是已经有了过万篇数据挖掘文章了哦!