前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >生信马拉松 Day24 单细胞-2

生信马拉松 Day24 单细胞-2

原创
作者头像
阿呆的月历
发布2024-03-26 17:12:25
970
发布2024-03-26 17:12:25
举报
文章被收录于专栏:生信马拉松生信马拉松

1. dgMatrix是稀疏矩阵

2. 线粒体基因比例特别高的,往往细胞表达的nCount比较大,可以通过percent.mt过滤

3. 找top2000高边基因即寻找基因表达量中离散程度最大的,保留有用信息同时降低运行负担,默认就是top2000

4. 做pca之前做scaleData,scale把0都转换为不是0的数字,此时行内数字相同仍然可以进行行内比较,但不能进行基因间的比较,pca实际上和普通转录组的是一样的

5. scale和normalize不一样,无论如何翻译,先做normalize再scale,但如果下载的单细胞数据是log(TPM/10+1)之后的数据,就不能normalize,count才normalize

6. FindClusters参数resolution范围是0.1-1之间

7. 多簇取高变marker基因的适合,注意只能对得到的数据框gene列取差异基因,不能按行名取,因为为了行名避免重复,把重复gene名自动增加了数字修改

8. Seurat.Rmd是单细胞的标准流程,小洁老师常用的是自己整理的2.GSE218208文件夹的内容

9. SingleR需要数据库支持才能做分析,可以用小洁老师下载好的数据包在supp/single_ref/ref_xxxx.Rdata里,其中Imm和Mouse是小鼠的,其他是人的。singleR只支持这两个物种

注意:小洁老师的代码是基于Seurat 4 版本,用 5 版本代码(主要是Seurat文件里有layer)需要略修改

10. GSE117570是采用CCA方法整合多样本,小洁老师整理了做参考,另一个多样本整合方法是harmony,更常用

11. 单细胞分析标记一定要看看参考文献怎么说的

12. AUCell评分是打分的机制,给一组基因,其中基因表达量高或者比例大会导致各个簇评分有差别,pct.1是在本簇里的基因表达情况,pct.2是除本簇之外的基因表达的情况

注意AUCell分析中有一行FindMarkers是由于只有两组,多组时用FindAllMarkers

生信技能树,生信马拉松,小洁老师

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档