前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信马拉松 Day23 TCGA实践-2

生信马拉松 Day23 TCGA实践-2

原创
作者头像
阿呆的月历
修改2024-03-05 15:41:49
590
修改2024-03-05 15:41:49
举报
文章被收录于专栏:生信马拉松生信马拉松

一堂文章复现课+单细胞基础

比较关键的技巧:

1.如何利用管道符提取矩阵(matrix)的特定列

str_split之后得到的是matrix,之前用管道符是无法直接取列的,加个.就可以了

代码语言:R
复制
geneset$gs_name = geneset$gs_name %>%
  str_split("_",simplify = T,n = 2)%>%
  .[,2]%>%

2.GSEA的要求

GSEA只要有一列基因以及从大到小的排序就能做,因此在转录组、芯片、单细胞中都能用

需要全部的基因,不能先经过筛选,所以标准图最底下的部分应该是连续排列的,且不同通路最底下的部分是不变的(有些文章的最底层灰色部分不是从正到负连续,其实都是错的,自己复现的时候注意甄别),同一个数据的不同通路的条形码部分是不同的

3.单细胞公共数据库

各个数据库的给的格式可能都不相同

单细胞超过2万个细胞,普通的16个G内存的电脑就无法完成,8个G内存的电脑一般跑1万个细胞就很困难了

4.Seurat标准流程

Seurat分析的框架,不是正式代码
Seurat分析的框架,不是正式代码

5.如果出现make not found报错,代表RTools软件没有安装(仅限windows系统)

出现permission denied则是需要用管理员权限打开

6.CreateSeuratObject中的min.cells(一个基因至少在多少个细胞中表达)和min.features(一个细胞中多少有多少个基因表达)是管过滤的,默认的过滤标准3/200不算严格

7.细胞线粒体基因过滤

线粒体基因量一般是少的,多了代表细胞有问题

计算后存放在meta.data里,nCount和nFeature在创建Seurat的时候就帮你计算好了

代码语言:R
复制
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
VlnPlot(pbmc, 
        features = c("nFeature_RNA",
                     "nCount_RNA", 
                     "percent.mt"), 
        ncol = 3,pt.size = 0)

这里的^MT-是正则表达式,代表检索MT-开头的基因,人类中是这个,小鼠中为mt-,其他物种需要自己查,注意修改

根据VlnPlot的结果确定过滤标准。不同细胞类型是不同的,例如骨骼肌肉细胞的线粒体基因比例可能就很高

8.怎么本地安装一个R包

首先搜索这个包,在archive中右键复制链接,获得链接后复制到代码中的url中

代码语言:R
复制
packageurl <- "https://mirrors.ustc.edu.cn/CRAN/src/contrib/Archive/SeuratObject/SeuratObject_4.1.4.tar.gz" 
install.packages(packageurl, repos=NULL, type="source")

就可以成功啦~

生信技能树,生信马拉松,小洁老师~

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 比较关键的技巧:
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档