我使用cummeRbund函数findSimilar()找到了与我用Cuffdiff识别的差异表达基因最相似的10个基因。这使用了Jensen-Shannon距离,并产生了一个排列有序的基因列表,我现在想要测试的是GO的富集。该文件如下所示:
"XLOC_007917" 0
"XLOC_008881" 0.00417099861122699
"XLOC_017692" 0.0178758082512721
"XLOC_008901" 0.0180682577435933
"XLOC_014267" 0.0333227735282459
"XLOC_013408" 0.0400392521794019
"XLOC_013497" 0.0412541820119971
"XLOC_010554" 0.0453928603025379
"XLOC_000570" 0.0461264880687295
"XLOC_010786" 0.0469577467848723 我首先手动搜索每一个最相似的基因的GO术语,但我想做一个更可靠的分析。我正在尝试运行GSEA,这是来自的Java应用程序。
我做了我的排名列表文件格式(*.rnk),现在我必须选择一个基因集数据库。
我正在研究海绵物种,所以我不能使用已经提供的数据库。
我怎样才能建立自己的基因库?它应该是什么样子的?
发布于 2015-06-17 22:13:51
我的策略在辅助装配之后是不同的。我使用袖扣提取新发现的基因序列,找出CDS,进行BLAST,得到GO术语。另一种选择是使用已知is的基因,并使用gProfiler进行浓缩分析。例如,您可以免费试用Blast2go来进行分析。您可以在本地安装数据库,这样会更快。您可以使用Blast2go进行浓缩分析。您还可以使用安装Galaxy Blast2go实例从他们的工具库。
发布于 2017-12-02 05:53:47
要使它与GSEA一起工作,您需要在文件的第一列中有正式的人类基因符号作为基因标识符。这也是一个好主意,确保每个基因只出现在你的排名一次。还请注意,在预先排序模式下,GSEA总是按降序排序您的输入。
https://stackoverflow.com/questions/17586238
复制相似问题