各种数据挖掘文章本质上都是要把目标基因集缩小,比如表达量矩阵通常是2万多个蛋白编码基因,不管是表达芯片还是RNA-seq测序的,采用何种程度的差异分析,最后都还有成百上千个目标基因。如果是临床队列,通常是会跟生存分析进行交集,或者多个数据集差异结果的交集,比如:多个数据集整合神器-RobustRankAggreg包 ,这样的基因集就是100个以内的数量了,但是仍然有缩小的空间,比如lasso等统计学算法,最后搞成10个左右的基因组成signature即可顺利发表。
其实还有另外一个策略,有点类似于人工选择啦,通常是可以往热点靠,比如肿瘤免疫,相当于你不需要全部的两万多个基因的表达量矩阵进行后续分析,仅仅是拿着几千个免疫相关基因的表达矩阵即可。
但是关于这一点,就有很多粉丝问我,为什么看了很多文献,大家的免疫相关基因集的数量都不一样,希望我给出一个可靠的数据源!
其实可以看到,大多就是来源于 ImmPort( The Immunology Database and Analysis Portal)数据库的:
如果你是初出茅庐,就选择它好了,反正数据库都提供了列表:https://www.immport.org/shared/genelists
或者你去KEGG和GO等数据库人工筛选免疫相关基因集,然后去冗余也行,再或者其它数据库,比如:
我一直觉得,这样的挑选其实是引入了人工偏差,但是这样的策略文章却屡见不鲜。比如几年前我总结的TCGA泛癌研究策略,其中一类就都是集中于某生物学功能基因集:
这个完全是取决于大家的生物学背景啦,很多人的课题组,实验室祖传就是研究某个通路,某个基因的,那么你就有先天优势。