在GEO数据库(https://www.ncbi.nlm.nih.gov/geo/)下载乳腺癌基因芯片数据。
每个数据集均需符合以下条件:
1、数据集来自全基因组RNA表达芯片;
2、实验使用人类癌症患者组织与正常组织对照。
方法
1、在GEO下载的原始芯片数据,导入GCBI(https://www.ncbi.nlm.nih.gov/geo/)在线平台。在该平台实验室内,创建一个分析基因芯片差异基因的实验方案,平台自动按设计的方案为导入的芯片数据做差异基因分析,获得差异基因。
GEO数据库
2、利用DAVID6.8(https://david.ncifcrf.gov/summary.jsp)对差异基因进行GeneOntol-ogy功能富集分析(GO分析)。
DAVID数据库
3、利用KOBAS3.0(http://kobas.cbi.pku.edu.cn/anno_iden.php)基于KEGG数据库,进行信号通路富集分析。
KOBAS3.0O数据库
4、最后利用STRING10.5(http://www.string-db.org/cgi/)进行差异基因编码蛋白的相互作用网络分析(PPI)。
String数据库
乳腺癌为例做讲解
一、芯片数据汇总
在GEO数据库中找到2张符合要求的芯片做分析
二、差异基因
GCBI平台下载芯片的矩阵文件数据进行差异基因的筛选。差异基因的筛选条件为:p值<0.05,logFC≥2。ZUO CHAYI FENXI 得到1680个差异基因,其中上调的基因900,下调的基因780。
这里可以做一张芯片,也可以做2张以上的芯片做交集,2张芯片做交集得到差异基因280个,其中上调的基因82个,下调的基因198个,进行进一步的生物信息学分析。
三、GO富集分析
取交集后的280个差异基因,用DAVID6.8作GO富集分析(FDR<0.01),结果显示这些基因富集在细胞周期、细胞增殖等生物学进程和核分裂调控等分子功能上。
四、KEGG通路分析
取交集后的280个差异基因,用KOBAS 3.0作KEGG通路分析,结果显示,这些基因显著富集于PI3K-Akt信号通路、P53信号通路、细胞因子-细胞因子受体相互作用、黏着斑、趋化因子信号通路及各种癌症(前列腺癌、黑色素瘤、急性粒细胞白血病)疾病通路等18个有统计学意义的相关通路(P值<0.05)。
五、蛋白互作网络构建分析取交集后的280个差异基因,用STRING分析这些蛋白之间的相互作用网络。结果显示BIRC5、CDK1等39个乳腺癌基因编码的蛋白与其他≥20个蛋白存在相互作用关系,为蛋白互作网络的中心节点。
领取专属 10元无门槛券
私享最新 技术干货