拷贝数异常与疾病表型密切关联,当鉴定出患者的CNV之后,如何从其中挖掘出具有临床意义,即可能致病的CNV是数据挖掘中的关键一步。本文解读的文献标题如下
我们介绍过,TIMER和TISIDB数据库都是做肿瘤免疫浸润分析的神器,但是数据库之间的组合是非常有讲究的。那么,怎样用好肿瘤免疫数据库呢?这篇文章以前分享过,值得重新学习。影响因子4分+。
人类基因组变异协会(HGVS)的主要职责是发现和分类包括人群分布与表型相关联的人类基因组变异,并根据方法学与信息学的发展对数据及相关的临床变异进行更新。目前行业中普遍应用HGVS规则对变异进行命名,统一的命名规则方便了各种各样的交流和解读。
今天给大家介绍一篇刚被nature communications接收的文章,“Integrating gene expression and clinical data to identify drug repurposing candidates for hyperlipidemia and hypertension”。本研究的主要贡献是提出了一种高通量的方法来识别和验证药物重定位的候选药物。这种方法综合了人类基因表达特征、药物干扰数据和公共可用资源中的临床数据,并成功应用于高血脂和高血压疾病的药物重定位预测中,通过筛选21000多种化合物,识别出了10个已被批准的药物和25个(7个用于高血脂,18个用于高血压)对临床相关的生物标志物有治疗作用的药物。该工作还鼓励研究人员整合更多公开可用的数据集,以提高药物重定位预测的准确率。
关于可变剪切研究的数据库,尤其是在肿瘤当中研究可变剪切的数据库。之前我们介绍过了[[tsvdb-可变剪切分析数据库]]以及[[TCGA Spliceseq-可变剪切相关数据库]] 这两个基于 TCGA 构建的数据库。这两个数据库当中,一个用来可视化可变剪切的情况,另外一个则提供了可变剪切数据的整体分析。
标题:A novel autophagy-related lncRNA prognostic risk model for breast cancer
一、人群SNV频率数据库 数据库名称 网站 简介 dbSNP https://www.ncbi.nlm.nih.gov/snp/ dbSNP 包含人类单核苷酸变异、微卫星和小片段插入和缺失,以及常见变异和临床突变的发表、群体频率、分子结果以及基因组和 RefSeq 映射信息。 gnomAD http://gnomad.broadinstitute.org/或http://www.gnomad-sg.org/ gnomAD(v3.1.2)基于GRCh38,其中短变异(short variant)数据集涵盖了7
TIMER (Tumor Immune Estimation Resource)数据库也是用高通量测序(RNA-Seq表达谱)数据分析肿瘤组织中免疫细胞的浸润情况,主要提供B cells, CD4+ T cells, CD8+ T cells, Neutrphils, Macrophages and Dendritic cells等六种免疫细胞的浸润情况。界面友好,简单易学又方便。网址:https://cistrome.shinyapps.io/timer/。
关于肿瘤浸润淋巴细胞(或免疫细胞)表型的研究,确实是研究热点。接下来,我们仍然关注肿瘤浸润免疫细胞的生信分析。
这篇生信论文是单基因分析的生信论文。单纯生信数据库的数据分析,没有湿实验验证,发表在接近4分+的期刊上。
今日介绍的是Alberto Santos 最新发表在《自然生物技术》上的文章 ” A knowledge graph to interpret clinical proteomics data”. 针对生物医学数据数量大、种类丰富而带来的数据整合困难,该工作提出了一个开源的临床知识图谱平台CKG(Clinical Knowledge Graph), 该平台结合了统计和机器学习算法,加速了典型蛋白质组学工作流程的分析和解释。相比于其他解决方案,CKG平台显得更加友好,将一系列数据库和科学文献信息与omic数据整合到一个易于使用的工作流中,显著增强了科学研究和临床实践的能力。
生信分析,无论是Oncomine,GEPIA,还是KM Plotter数据库,都不需要R语言编写代码,容易上手,基本上一个星期甚至更短的时间就可以搞定,属于菜鸟级别生信操作。并没有想象中那么难。但是简单容易不代表不重要,也不说明水平高低,而是反应了一种思路,这才是最最重要的。p<0.05就是我们前期做分析想要的结果,即使用GEO数据库、TCGA数据库做分析,甚至做芯片或测序,没有差异也是枉然。
越来越多的研究发现某一个基因的突变和很多的临床特征有关系。如果我们想有查找临床性状和基因突变的关系的话,内容比较全面的就是ClinVar数据库了。ClinVar 数据库是ncbi旗下用于查看临床相关突变的数据库。但是其数据库的内容比较多,而且检索界面不是很友好。所以经常看不懂其结果。所以今天就介绍一个检索简单的突变和表型的数据库。Simple ClinVar(http://simple-clinvar.broadinstitute.org/)。通过其名字我们就知道这个是一个简易版的Clinvar数据库。
显示的主要结果是一个可视化各个组学信息的热图上。其中最上面的是对于每个信息的注释信息。下面的是具体的结果信息。结果信息包括
我们在进行数据库介绍,尤其是肿瘤相关数据库的时候,经常会提到说这个使用了 TCGA/GTEx 数据库的数据,那么这两个数据库到底是什么呢?为什么会有用这两个数据库呢?另外呢,由于最近ICGC提的也比较多,所以这里也就做一下简单的介绍。
单核苷酸多态性主要是指在基因组水平上由单个核苷酸的变异所引起的DNA序列多态性。它是人类可遗传的变异中最常见的一种,占所有已知多态性的90%以上。SNP在人类基因组中广泛存在,平均每300个碱基对中就有1个,估计其总数可达300万个甚至更多。SNP是一种二态的标记,由单个碱基的转换或颠换所引起,也可由碱基的插入或缺失所致。SNP既可能在基因序列内,也可能在基因以外的非编码序列上。
药物基因组学通过确定与药物个体反应相关的个体特异性遗传因素,已被有效地用于研究药物不良反应。此前《Pharmacogenomics & Personalized Medicine》发表了题为“Review on Databases and Bioinformatic Approaches on Pharmacogenomics of Adverse Drug Reactions”的综述文章,总结了药物不良反应研究的技术、数据库、数据分析方法等,还探讨了临床应用建议。
今天为大家介绍的是来自Feng Zhu团队的一篇数据库论文。药物耐受性已经成为全球医疗保健中的一个关键问题。研究人员为揭示与药物耐受性相关的各种疾病,以及耐受性背后的不同分子机制,做出了很多努力。目前迫切需要一个数据库,不仅列出了所有具有药物耐受性的疾病(不仅限于癌症或感染),还包括所有类型的耐受性机制。因此作者研究开发了一个名为“DRESIS”的全面药物耐受性信息数据库。DRESIS的目的是:(i) 系统地首次提供所有现有类型的药物耐受性分子机制;(ii) 广泛覆盖所有现有数据库中最广泛的疾病范围;(iii) 明确描述最大数量药物的临床/实验验证的耐受性数据。由于药物耐受性问题日益严重,DRESIS预计对未来新药发现和临床治疗优化将具有重大意义。
生信论文36是单基因分析的生信论文,单纯生信数据库的数据分析,没有湿实验验证,但是可以发表在接近5分的期刊上,很多分析做得很棒,值得借鉴。我们对文章数据进行复现。
文献搜索在每个科学家的日常生活中都是不变的。我们花费大部分时间来积累信息。无论是编写一个基金本子,设计/排除一个棘手的实验···这都需要我们了解领域的最新动态。其中,我们的大多数研究和文献搜索都是在线完成的。
前面关于TCGA的教程我介绍很多,包括数据下载和一些简单的分析以及数据的处理,这里介绍还是介绍数据的下载,前面介绍过从网页下载后直接整理,或者利用R包下载,这里介绍基于TCGA数据开发的一些工具——UCSC。从UCSC下载TCGA数据比较简单。
cBioPortal网站目前存储DNA拷贝数数据(每个基因的假定,离散值,例如“深度缺失”或“扩增”,以及log2水平),mRNA和microRNA表达数据,非同义突变,蛋白质水平和磷蛋白水平(RPPA)数据,DNA甲基化数据和有限的临床数据等,可以快速获取大规模癌症基因组学项目的分子谱和临床预后相关性,并将这些丰富的数据集转化为可视化数据以用于临床。
前段时间,我们介绍了两篇在OncoImmunology发表的简单的生信+实验的文章。最近又发现一个杂志(Genomics, IF = 6.205)也发表一些生信相关的文章。里面有些文章简单的令人发指。今天就来介绍一个基本上全部都是用在线数据库做出数据的文章。
大家好,今天向大家分享的是2020年4月发表在Frontiers in Genetics (IF=3.517) 杂志上的一篇文献《Novel Immune-Related Gene Signature for Risk Stratification and Prognosis of Survival in Lower-Grade Glioma》。文章基于TCGA数据库和CGGA数据库中的脑胶质瘤相关数据,利用单因素、多因素Cox回归分析及Lasso算法构建了六个免疫相关基因签名(gene signature,或者叫标记基因),并建立了预后诺模图,可有效地进行风险分层和预测原发性LGG的整体生存。
《本文同步发布于“脑之说”微信公众号,欢迎搜索关注~~》 公开数据库对于促进科学研究的快速发展意义重大,公开数据的建立可以让全世界各国的领域内研究者对某些问题进行更深入更全面的研究。在大数据时代,数据库的开放和共享已逐渐成为研究领域的趋势之一,目前很多国外期刊杂志也鼓励投稿者共享和开放研究数据。上述情况对于脑科学领域的研究也是如此。此外,我们个人同样可以利用各类脑科学公开数据库方便地进行各种研究。 笔者在这里较为全面地盘点目前免费的EEG/MEG/MRI/ fNIR公开数据库,希望对大家的研究有所帮助。
众所周知,TCGA和GEO是最著名的两大公共数据库,前者主要存储高通量(二代测序)数据的肿瘤样本数据(TCGA的0代码可视化已被临床生信之家实现)。
从IT时代步入DT时代,医疗大数据成为智慧医院建设的重要驱动力。经过多年信息化系统建设,很多医院已经积累了大量的医疗数据资源,但由于各业务系统间数据孤岛化严重、系统架构落后、数据缺乏深度治理等问题存在,导致现有数据深度及质量难以支撑医院临床科研和运营管理决策。如何构建全院统一的数据开放服务平台,在保证原始数据安全的前提下深挖数据应用价值,赋能临床诊疗及科研进阶,已成为推动医院高质量发展的关键。
目前该数据库中的信息已经移动到了dbGap和dbVar数据库中,以dbGap为例,链接如下
目前很多对于公共测序数据的分析,很多都是集中在肿瘤数据当中,主要原因还是在于,肿瘤有一个TCGA的数据库。倒不是说TCGA数据库有多大的样本,而是在于TCGA数据库可以获得每个患者的临床数据。基于这些内容,我们在分析的时候,除了做基本的差异,同时可以看预后等等的。
在分享第一篇生信论文时,文章影响因子高达8分以上,而且主要是纯生信数据库,加上病理组织的免疫组化结果,给人的感觉是高分生信论文很容易发表。2019年国人在该杂志发表的论文多是涉及microRNA等研究热点的论文,整体发表难度还是挺大的。
第43篇生信论文的分享。先不说论文思路,但是论文题目过于简单,其实可以点出与肿瘤免疫浸润表型相关。
对于临床方面的研究而言,如果我们要研究一个疾病,那么肯定要先知道这个基因之前的研究是什么一种情况,这种最经典的方式还是去看关于疾病的相关综述。随着现在网络数据库的增多,已经很多和疾病相关的数据库了,所以我们去查询这些疾病汇总的数据库去可以快速的了解一个疾病的基本研究现状了。
如果你做了一份科研样本的NGS检测,绝大多数测序公司都会附上一份标准化的分析报告,当然,这份报告的实际可用性懂得都懂。但如果一位肿瘤患者进行了NGS检测,那出具的检测报告就需要慎之又慎,靠谱的公司往往会想尽办法提高报告的准确和严谨,每份报告也都需要进行人工审核和解读。医生们则会在拿到这份报告之后再结合病人的实际病情进行临床决策。
dbSNP是由NCBI提供的,在这个数据库,可以查看是否有人已经发现了你的变体。dbSNP不仅包含SNPs(单核苷酸多态性),还有很多其他的变异,如短删除、插入和多核苷酸多态性。dbSNP中的数据有两种主要类型:由用户提交,可以通过“提交的SNP”(ss)标识符来识别;由多个提交的数据和来自其他来源的数据组合而成的数据,可以通过“reference SNP” (rs)标识符识别。
目前,药物开发主要通过针对与疾病相关靶点进行高选择性药物进行筛选。然而,高选择性药物并不一定体内仍然表现出选择性和高效性。这可能是因为在有效剂量下的不良反应或生物系统的补偿机制导致的。高通量筛选技术因其微量、快速、灵敏、高效等特点,已经逐渐成为加快药物联合治疗研究的有力工具。与单一给药相比,联合用药具有增强药物疗效、减少剂量依赖性毒性和防止出现耐药性等潜在优势,尤其是在癌症及抗感染治疗方面。然而,由于可能的药物组合的数量特别巨大,发现具有协同作用药物组合的筛选仍然是一个费力且偶然的过程。近年来,高通量筛选技术高通量筛选技术作为药物开发的重要工具,在加速药物组合研究中同样发挥重要作用,使药物组合测试更加系统化。
传统化疗是对抗癌症的常见方法,但它会攻击全身,造成不必要的副作用,如脱发,恶心和疲劳。 靶向治疗选择性地杀死癌细胞而不影响健康组织。靶向药物开发将成为治疗癌症的重要手段。 肿瘤的生物信息学数据库对肿瘤基础研究的发展、临床治疗水平提供具有重要作用。
SurvivalMeth是哈尔滨医科大学李霞教授团队开发的,于2020年8月11日发表在Briefings in Bioinformatics上的针对DNA甲基化预后分析的数据库。
DrugBank数据库是唯一将详细的药品数据(即化学、药理学和制药)与综合药物靶点信息(即序列、结构和作用通路)相结合的“生物信息学和化学信息学”资源。DrugBank由加拿大卫生研究院,亚伯达省创新-健康解决方案和代谢组学创新中心(TMIC)提供支持,该中心是国家资助的研究以及支持广泛的尖端技术代谢组学研究的核心 。DrugBank数据库查询包含以下信息:药品类型、药品简介、化学结构、药品成分、临床试验、药物靶点、酶、转运体、载体、药品图片、批准情况、批准的处方药、国外上市商品名、药物相互作用、制造商、包装商等。
今天给大家解读一篇2019年发表在Mol. Cancer上的文章,影响因子10.679。这是一篇关于m6A的文献,有很多值得大家学习的地方。
所以我这里安排一个学徒作业,大家需要去下载TCGA数据库的BRCA这个癌症的芯片和RNA-seq的表达矩阵,分别进行差异分析,拿到统计学显著的上下调基因列表。
生存分析是非常常见的表型分析。与生存分析相比,相关性分析是另外一个常见的表型分析。相关性包括表达与病理分期、治疗手段、年龄、种族、吸烟、突变、性别、共表达等因素的相关情况,通常用相关系数R表示,其差异也是用p值判断。
这是我们分享多次的论文,其中涉及基因组学的生信分析,就是用cBioPortal数据库进行机制探究。比较简单,但是在进行基因组学探究时,这些分析有时就足够了。
摘要部分,言简意赅,尤其是数据库的介绍,穿插在结果的叙述之中。作者对乳腺癌的认识和理解还是蛮深刻的,这也是对肿瘤进行深入分析的基础。
在做肿瘤研究的时候,我们现在都知道可以提前查一下基因的表达和临床特征有没有相关性 ,这样对我们的下一步实验也是一个预测的方向。经典的我们可以使用TCGA的数据来进行分析,我们之前介绍的GEPIA就可以来进行分析。但是对于测序的结果而言,其检测的结果不管是基于人种或者其他的原因,可能和我们的实验结果有可能存在偏差。这个时候其实多分析几个结果,多看个数据集的结果会更好一些。常用的数据库就是GEO了,但是使用GEO还要一个一个数据集找,这样又很浪费时间。所以有没有简单的方法呢?今天就给大家介绍一个汇总了多个癌种,多个数据集的综合性分析基因表达和临床相关性的数据库:oncomine(https://www.oncomine.org/)。
今天和大家分享的是2020年2月发表在Frontiers in Oncology(IF:4.848)上的一篇文章,"Genomic Features and Clinical Characteristics of Adolescents and Young Adults With Cholangiocarcinoma"。作者使用外部数据集TCGA和MSKCC以及中国三甲医院的CCA临床数据库,在cBioPortal平台分析了AYAs的CCA患者的临床病理学以及分子生物学特征。还对AYA的CCA患者的体细胞突变进行研究,发现ASXL1和KMT2C的突变率显著更高。接下来作者使用GEPIA数据库对中心基因进行了验证,并通过Metascape进行了功能富集分析(GO和KEGG pathway)。该研究阐述了AYA的CCA发病的临床和分子特征的初步情况。
题目:Identification of a five-gene signature of the RGS gene family with prognostic value in ovarian cancer
关于DNA甲基化相关的数据库,我们介绍了很多。上一周的时候,更是转载了一个介绍了20多个表观遗传相关的数据库。每一个数据库有些时候就是做的东西不一样的。所以我们就基于不同的目的选择不同的数据库即可。今天继续介绍一个DNA甲基化相关的数据库:SurvivalMeth(http://bio-bigdata.hrbmu.edu.cn/survivalmeth/)。这个数据库需要还是寻找和肿瘤预后相关的甲基化位点,同时通过DNA甲基化功能元件(methylation-related functional elements, DMFEs)来尝试探讨其甲基化位点的功能。
作者直接从生存分析的角度入手,利用km plotter数据库分析NDRG基因家族基因在胃癌中表达差异与存活率的关系,并分析其与HER2表达、肿瘤分期的相关性。
领取专属 10元无门槛券
手把手带您无忧上云