基因大数据分析所需的知识库

文章来源：企鹅号 - 基因空间

实验验证、读文献、文本挖掘、公共数据库及预测。

基因空间

2018.03.14（星期三）

基因大数据解读至少包含以下两个步骤：第一，通过个人基因数据与健康对照比对发现差异（通常为突变）；第二，根据已有知识对这些突变进行解读。已有知识可以通过各种途径获得，如分子实验验证、读文献、文本挖掘、公共数据库及预测。

文本挖掘是指用计算机手段根据用户提供的关键词在文献的摘要或全文中探索和提取信息。同时它能够快速获得大量信息，但其结果中错误率较高，往往需要人工检验。

公共数据库是获取基因突变相关信息的最佳场所。目前，常用的突变与人类性状数据库有NCBI的PheGenI（Pheonotype-genotypeIntegrator，表现型-基因型整合数据库）、dbGaP（基因型和表现型数据库）和ClinVar（突变与表现型数据库），UniProt的humsavar（人类多态性和疾病数据库），以及SNPedia、OpenSNP和GWAScentral等；NCBI的OMIM数据库提供了基因与疾病之间的关联，类似的数据库还有DisGeNET及COSMIC数据库收录的各种癌症的突变情况。

当遇到公共数据库中没有收录的突变时，可以用计算工具进行预测。这些工具包括SIFT、PolyPhen2、PhyloP、GERP++、MutationTaster、MutationAssessor、FATHMM、MetaLR和MetaSVM等。不过，这些工具通常只能预测蛋白编码基因内突变的后果。

随着基因数据的积累，科学家们也开始关注非蛋白编码区突变与疾病的关联。例如，来自加拿大的科学家Brendan John Frey用深度学习的方法揭示了基因剪切位点和调控区这两大非编码区域的突变与疾病的关联，并建立了可用于预测的数学模型。

但如果基因数据分析的目的是临床应用，那么，还需要相应的药物数据库，如遗传药理学和基因组药理学数据库（Pharm GKB）、DrugBank等。美国奥巴马的“精准医疗”计划准备构建一个有1百万样品的数据库以推进精准医疗的研究和应用，为此奥巴马还专门拨款1.3亿美元。

同时，依据基因数据分析的目的，也需要相应的知识库。

发表于: 2018-03-142018-03-14 17:00:40
原文链接：http://kuaibao.qq.com/s/20180314G13DOJ00?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

基因大数据分析所需的知识库

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐