前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >非肿瘤研究如何利用公共数据库发表文章

非肿瘤研究如何利用公共数据库发表文章

作者头像
医学数据库百科
发布2020-11-23 15:13:16
1.7K0
发布2020-11-23 15:13:16
举报
文章被收录于专栏:医学数据库百科

目前很多对于公共测序数据的分析,很多都是集中在肿瘤数据当中,主要原因还是在于,肿瘤有一个TCGA的数据库。倒不是说TCGA数据库有多大的样本,而是在于TCGA数据库可以获得每个患者的临床数据。基于这些内容,我们在分析的时候,除了做基本的差异,同时可以看预后等等的。

而对于其他的疾病的患者,其数据的来源主要还是GEO。而GEO数据由于都是作者决定上传什么数据的,所以基本上除了每个样本的测序信息,以及一个基本的分组。对于每个患者的其他信息,比如年龄性别这类的基本信息以及临床相关信息很少有包括在内的。这也就导致我们经常只能做一个简单的分组。所以相对来说分析的内容少,内容少了那文章肯定也就不好发了。

在最近的EbioMedicine里面发表了一篇非肿瘤的生信文章。基于这个文章倒是可以看一下如果临床信息少的病种来怎么进行分析的。

文章主要框架

通过以上的题目,我们可以了解到这个文章主要做的还是败血症的研究。下面就简单的介绍一下这个文章的框架吧。

数据集选择

对于这类的文章,其实第一步就是来寻找可用的数据集。为了保证选择的数据量多,作者利用GEO和AarryExpress两个数据库检索符合要求的数据。在进行一系列的筛选,最后获得了12个和败血症相关的数据集。

PS:在这里需要注意的是,由于要合并多个数据集,所以要进行批次效应的去除。

聚类分析

在获得基本的数据集之后,作者使用其中一个数据集来通过非监督聚类k-means的方法来对样本进行分组。通过聚类分析,作者把数据集分成了两个分类。

富集分析

由于样本分成了两个分类,所以作者利用对两个分类进行了差异分析,最后对这些差异基因进行富集分析来了解不同两个分类主要是哪些功能发挥作用。

特征基因选择

在进行差异分析的时候,我们会得到很多差异基因,对于基因很多,我们没办法进行核心基因的选择。为了选择一个可以能够评估两个分组的基因组合模型。作者使用了GALGO算法来进行基因模型的选择。都选择好基因之后,作者使用了其他数据集来进行了外部数据集验证。来证明这几个可以来进行不同临床特征的预测。

文章总结

以上就是这个文章的主要内容。通过这个文章,其实我们可以借鉴的就是,对于临床信息少的疾病。我们可以通过增加数据集的方式来增加文章的内容。进一步的,相较于之前的差异等等,可以通过加载一些机器学习甚至深度学习的算法来进行分析的准确性。所以如果是研究其他疾病的,可以尝试一下这个模式的哈。

PS:文章当中用到的算法什么的都是很经典的,相对来说也不难实现。另外作图啥的,也都是最基本的图形。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-11-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据库百科 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 文章主要框架
    • 数据集选择
      • 聚类分析
        • 富集分析
          • 特征基因选择
          • 文章总结
          相关产品与服务
          数据库
          云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
          领券
          问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档