生信论文的套路
在分享第一篇生信论文时,文章影响因子高达8分以上,而且主要是纯生信数据库,加上病理组织的免疫组化结果,给人的感觉是高分生信论文很容易发表。2019年国人在该杂志发表的论文多是涉及microRNA等研究热点的论文,整体发表难度还是挺大的。
果友们可以看看作者的单位,除了武汉大学,湘雅医学院等国内一流学校和医院,还有美国德州大学MD安德森癌症中心(The University of Texas MD Anderson Cancer Center)。在发表论文时,通讯作者和作者单位是影响论文是否发表非常重要的因素。有兴趣的果友可以看看第一作者的资料,前期的积累也非常重要。
http://shs.whu.edu.cn/info/1135/4460.htm
注意第一作者和通讯作者,一个是在高校,一个是医院病理科。其实,这也是趋势,医院有样本,学生有体力和时间,各取所需。而且,现在情况是,医院科室主任多是博士毕业,有的甚至是留学归来,是经过生物科研思维训练的医生,他们和他们的学生是最容易发表论文的人。
先用Oncomine数据库做mRNA水平的差异全景,肿瘤不区分亚型。
再用Oncomine数据库的对比操作,分析常见肿瘤亚型的差异表达,只列出表达有差异的组别(p<0.05, fold chage>2)。
后面作者用GEPIA数据库做平行分析,但我认为该平行实验存在明显的bug,因为GEPIA只是分析其中一种乳腺癌亚型(BRCA)。个人认为,GEPIA数据分析的结果展示(Figure2和Figure3)画蛇添足,实在是影响了这篇文章的整体美感。
GEPIA分析显示,BRCA(浸润性乳腺癌)中仅有E2F1、E2F2和E2F8具有显著差异;但实际上,Oncomine分析结果中E2F1、E2F2、E2F3、E2F5、E2F7和E2F8在乳腺癌中均有表达的差异。
GEPIA数据库的病理分期也是针对BRCA,而不是针对乳腺癌的整体情况,这与本文的题意——乳腺癌相差甚远,因为部分不能代替整体。
临床病理标本的免疫组化实验(IHC)分析,是本文的亮点之一。
差异表达的临床意义通过KM Plotter数据库的OS、FP、PPS、DMFS来展示,这也是生信分析的必须条件。有差异(p<0.05, fold change>2),有表型 (OS、FP、PPS和DMFS至少有一个有差异),是王道。
在完成差异分析、临床意义的问题之后,作者高明的地方在于利用cBioportal和GO/KEGG富集分析,进一步探讨可能的分子机制。
先是基因组学的分析,突变、扩增、删除等等。个人认为意义不大,只是增加数据的数量。而蛋白互作分析和富集分析是文章的第二大亮点。互作分析常用网站是STRING,感兴趣的可以搜一下哦~~
GO分析找出与E2F差异表达(不是E2F基因本身哦)密切相关的基因。
KEGG富集分析,进一步确认与E2F差异表达(不是E2F基因本身哦)密切相关的基因主要分布在哪条信号通路上。GO和KEGG富集分析在这里做的很漂亮,也是这篇生信文章分数档次较高的原因之一。
最后,通过信号通路的方式展示E2F调控乳腺癌的可能机制。
题目
Comprehensive Analysis of he Expression and Prognosis for E2Fs in Human Breast Cancer.