题目
A four-methylated mRNA signature-based risk score system predicts survival in patients with hepatocellular carcinoma 。
接着我们就聊聊这篇文章干了啥?从题目可以看出这篇内容侧重甲基化研究。整篇文章的workflow如下:
01
查找四套GEO数据集并分别差异分析
作者分别下载了表达的GEO数据集GSE84402, GSE64432以及甲基化的GEO数据集GSE77003 和GSE57956,作者分别取差异基因(cancer VS normal)和差异甲基化基因(cancer VS normal),差异表达采用limma包实现,差异甲基化采用GEO2R实现, 接着分别进行了高表达/低甲基化和低表达/高甲基化的基因取交集,分别获得130个和18个重合的差异基因。Cutoff :p< 0.05 and [logFC]>1
02
MDEGs 功能富集分析
作者将高表达/低甲基化和低表达/高甲基化的基因称之为MDEGs,作者利用DAVID数据库进行了KEGG和GO分析,结果如下:
03
识别hub gene和临床价值
作者在进行完富集分析之后,便开始寻找hub gene,作者基于STRING数据库构建了PPI网络,筛选出前10个基因进行下一步研究,首先在TCGA数据库中验证了表达情况和甲基化情况,接着作者进一步考察甲基化和表达的相关性,发现大部分基因存在负相关,说明甲基化可能导致了表达情况的变化。作者这里还使用了一个甲基化的网站:DNA Methylation and gene expression in Human Cancer (http://methhc.mbc.nctu.edu.tw/php/ index.php)
接着作者对top基因进行了预后分析,发现只有四个基因存在预后价值并绘制了AUC曲线,如下:
04
预后模型构建
作者对筛选出的四个基因,构建了预后模型,采用中位数作为cutoff,将四个基因整合到一个表达式中做预后评判,发现在OS和PFS都有差异,同时ROC也被绘制,整体的ROC并不是很好。
05
构建列线图模型
作者整合了T stage, HCC risk factors 和the four-MDEG signature绘制了列线图模型,calibration curves 也被绘制如下:
根据列线图得分,患者可别分成三组,接着采用TCGA数据集发现三组的OS可以分开,如下:
06
比较列线图和T stage预测准确性
作者采用C-index比较T stage和列线图模型的预测准确度,发现列线图模型显著比Tstage预测准确,说明模型的优越性。
至此整篇文章就结束了。
文章思路总结
作者综合了四套GEO数据集(甲基化/表达)进行差异分析,然后取交集,分别进行GO/KEGG分析,接着进行PPI网络的构建,筛选hub gene,再接着进行模型构建和列线图模型构建以及TCGA数据库的验证。
OK,这个文章就结束了,这篇文章思路非常清晰,以甲基化和基因表达即为切入点来分析,整个流程是不是很简单,大家是不是看的有点小激动?那就赶快去试一下吧!
·end·
本文为百味科研芝士平台原创