前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >猪的单细胞分析如何过滤线粒体基因

猪的单细胞分析如何过滤线粒体基因

作者头像
生信技能树
发布2022-01-10 08:42:59
1.8K0
发布2022-01-10 08:42:59
举报
文章被收录于专栏:生信技能树

当我们进行非模式物种的单细胞分析时,难免会遇到各种问题,其中,基因symbol命名不规范也将会给我们后续注释带来不小的麻烦。

比如我们在做猪的单细胞数据分析时,首先进行质控,当我们想要过滤线粒体基因时,采用常规的MT开头的基因进行过滤,会发现找不到基因。举个例子:

代码语言:javascript
复制
mito_genes=rownames(sce.all)[grep("^MT-", rownames(sce.all))] 
mito_genes #13个线粒体基因
# character(0)

其实,线粒体基因是真实存在的,只不过采用的命名方式不是MT开头,所以上面的代码失效了。

下面我们来演示一下在猪的单细胞分析如何过滤线粒体基因。

首先我们在猪的Ensembl数据库

数据库截图

发现存在一个MT线粒体gff3文件,希望在里面能找到些信息,解压并打开文件,果不其然,文件中的gene命名是以ENSSSCG开头的;

找一个基因测试下ENSSSCG00000018060

代码语言:javascript
复制
> mito_genes=rownames(sce.all)[grep("ENSSSCG00000018060", rownames(sce.all))] 
> mito_genes
# [1] "ENSSSCG00000018060"

真的存在这个基因,接下来就是如何从gff3文件中提取geneID,运行下列代码提取geneID:

代码语言:javascript
复制
grep -v "#" Sus_scrofa.Sscrofa11.1.105.chromosome.MT.gff3 |awk -F "[\t=:;]" 'BEGIN{OFS="\t"}$3=="gene"{print $1,$4,$5,$11}' >PIG.MT.gene.nemes.txt

MT RefSeq 3922 4876 ENSSSCG00000018065 MT RefSeq 5087 6128 ENSSSCG00000018069 MT RefSeq 6511 8055 ENSSSCG00000018075 MT RefSeq 8203 8890 ENSSSCG00000018078 MT RefSeq 8959 9162 ENSSSCG00000018080 MT RefSeq 9120 9800 ENSSSCG00000018081 MT RefSeq 9800 10583 ENSSSCG00000018082 MT RefSeq 10653 10998 ENSSSCG00000018084 MT RefSeq 11069 11365 ENSSSCG00000018086 MT RefSeq 11359 12736 ENSSSCG00000018087 MT RefSeq 12935 14755 ENSSSCG00000018091 MT RefSeq 14739 15266 ENSSSCG00000018092 MT RefSeq 15342 16481 ENSSSCG00000018094

所以,我们将用着13个线粒体基因ID。这个代码来自于我们《生信技能树》的单细胞数据分析工程师 林枫,欢迎大家前来咨询我们团队的单细胞数据分析服务哦

接下来我们进行实战

前面的PercentageFeatureSet()函数有两种指定模式:

  • (1)pattern通过正则表达来进行模式匹配
  • (2)features直接指定需要进行统计的基因名,优先于pattern

我们这里演示另外一个更底层的用法:

代码语言:javascript
复制
mt.genes=c('ENSSSCG00000018065','ENSSSCG00000018069',
     'ENSSSCG00000018075','ENSSSCG00000018078','ENSSSCG00000018080',
     'ENSSSCG00000018081','ENSSSCG00000018082','ENSSSCG00000018084',
     'ENSSSCG00000018086','ENSSSCG00000018087',
     'ENSSSCG00000018091','ENSSSCG00000018092','ENSSSCG00000018094')
head(rownames(sce.all))
kp=mt.genes %in% rownames(sce.all)
table(kp)
mt.genes=mt.genes[kp]
C<-GetAssayData(object = sce.all, slot = "counts")
percent.mito <- Matrix::colSums(C[mt.genes,])/Matrix::colSums(C)*100
sce.all <- AddMetaData(sce.all, percent.mito, col.name = "percent.mito")
sce.all[["percent.mito"]]
fivenum(sce.all@meta.data$percent.mito)

有意思的是,猪这个物种,它其实参考基因组的样式非常多,前面的ensembl数据库ID里面,是SSC的简称,有一些是CAF,这方面知识点应该是专门的做猪方面科研的小伙伴才能整理了。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 生信技能树 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 接下来我们进行实战
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档