我已经进行了阿弗莱米特里克斯数据分析与橄榄和角膜缘。现在我需要对上调和下调的基因进行基因富集分析(在EnrichR上,通过搜索基因符号)。然而,当我注释我的数据(使用clariomshumantranscriptcluster.db库,因为我100%确信数据属于人类细胞)并为每个探针ID找到相应的基因符号时,许多ID都给出了"NA“值。
我尝试过使用DAVID和Affymetrix.com转换工具,但都没有给出结果。在Affymetrix.com上读到这篇文章后,我非常困惑:“以"TC”开头的注释指的是TIGR小鼠基因索引。以"HT“(人)或"ET”(其他物种)开头的注释是表达的基因解剖数据库(EGAD)的序列ID。“因为我的ID是不同的,我有一些以"TC“开头,一些以"HT”开头,还有一些只是一个数字。
我不确定我是否通过选择错误的GeneChip或选择错误的NetAffx搜索来进行错误的查询搜索;或者在将HT、TC和number之间的不同ID格式分离后,是否应该执行3种不同的搜索。
发布于 2022-03-24 11:11:12
下面是一种使用biomaRt
包查询ensembl数据库的方法。
library(biomaRt)
probes <- c("1007_s_at", "1053_at", "117_at",
"121_at", "1255_g_at", "1294_at",
"1316_at", "1320_at", "1405_i_at",
"1431_at")
mart <- biomaRt::useEnsembl(biomart="ensembl",
dataset="hsapiens_gene_ensembl")
biomaRt::getBM(attributes=c("hgnc_symbol", "ensembl_gene_id",
"affy_hg_u133_plus_2"),
filters = "affy_hg_u133_plus_2",
values = probes,
mart = mart)
##> hgnc_symbol ensembl_gene_id affy_hg_u133_plus_2
##> 1 CCL5 ENSG00000274233 1405_i_at
##> 2 DDR1 ENSG00000234078 1007_s_at
##> 3 DDR1 ENSG00000215522 1007_s_at
##> 4 DDR1 ENSG00000230456 1007_s_at
##> 5 DDR1 ENSG00000137332 1007_s_at
##> 6 PTPN21 ENSG00000070778 1320_at
##> 7 RFC2 ENSG00000049541 1053_at
##> 8 GUCA1A ENSG00000048545 1255_g_at
##> 9 GUCA1ANB ENSG00000287363 1255_g_at
##> 10 THRA ENSG00000126351 1316_at
##> 11 CYP2E1 ENSG00000130649 1431_at
##> 12 DDR1 ENSG00000204580 1007_s_at
##> 13 CCL5 ENSG00000271503 1405_i_at
##> 14 HSPA6 ENSG00000173110 117_at
##> 15 HSPA7 ENSG00000225217 117_at
##> 16 PAX8 ENSG00000125618 121_at
##> 17 UBA7 ENSG00000182179 1294_at
##> 18 MIR5193 ENSG00000283726 1294_at
发布于 2022-03-26 20:25:55
取决于“大量ID”的含义。有些ID指的是控制区域,没有任何相关的基因符号,但这些并不多。如果没有任何特殊的理由使用limma&co.,为什么不求助于阿弗莱米特里公司免费的Transcriptome分析控制台(TAC)软件,该软件提供本地ID映射和其他一些功能?
https://stackoverflow.com/questions/71601200
复制相似问题