1. dgMatrix是稀疏矩阵
2. 线粒体基因比例特别高的,往往细胞表达的nCount比较大,可以通过percent.mt过滤
3. 找top2000高边基因即寻找基因表达量中离散程度最大的,保留有用信息同时降低运行负担,默认就是top2000
4. 做pca之前做scaleData,scale把0都转换为不是0的数字,此时行内数字相同仍然可以进行行内比较,但不能进行基因间的比较,pca实际上和普通转录组的是一样的
5. scale和normalize不一样,无论如何翻译,先做normalize再scale,但如果下载的单细胞数据是log(TPM/10+1)之后的数据,就不能normalize,count才normalize
6. FindClusters参数resolution范围是0.1-1之间
7. 多簇取高变marker基因的适合,注意只能对得到的数据框gene列取差异基因,不能按行名取,因为为了行名避免重复,把重复gene名自动增加了数字修改
8. Seurat.Rmd是单细胞的标准流程,小洁老师常用的是自己整理的2.GSE218208文件夹的内容
9. SingleR需要数据库支持才能做分析,可以用小洁老师下载好的数据包在supp/single_ref/ref_xxxx.Rdata里,其中Imm和Mouse是小鼠的,其他是人的。singleR只支持这两个物种
注意:小洁老师的代码是基于Seurat 4 版本,用 5 版本代码(主要是Seurat文件里有layer)需要略修改
10. GSE117570是采用CCA方法整合多样本,小洁老师整理了做参考,另一个多样本整合方法是harmony,更常用
11. 单细胞分析标记一定要看看参考文献怎么说的
12. AUCell评分是打分的机制,给一组基因,其中基因表达量高或者比例大会导致各个簇评分有差别,pct.1是在本簇里的基因表达情况,pct.2是除本簇之外的基因表达的情况
注意AUCell分析中有一行FindMarkers是由于只有两组,多组时用FindAllMarkers
生信技能树,生信马拉松,小洁老师
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2025 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059 深公网安备号 44030502008569
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号 | 京公网安备号11010802020287
Copyright © 2013 - 2025 Tencent Cloud.
All Rights Reserved. 腾讯云 版权所有