其中,我委婉的指出来了,那个文章对两个两个样本的10X单细胞转录组数据的整合是有问题的,不过他们文章发表期刊是 Immunity影响因子很高,二十多分,其实单细胞对他的生物学故事来说是锦上添花,可有可无,所以我也不想去追究 他们了。
下意识的以为是有人把单细胞数据分析流程总结成为了一个地铁线路图或者公交车线路图,因为我们生信技能树VIP群里这两天有人把一下NGS分析流程整理成为了这样的图,如下所示:
链接: https://www.sciencedirect.com/science/article/abs/pii/S1074761319302845
老实说,过去的三年虽然说我一直在朋友圈刷到有空间单细胞的cns文章,但我实际上是瞧不起这个技术的。首先它仅仅是给大红大紫的单细胞转录组续命而已,其次它根本就不是真正的单细胞水平,所以绝大部分数据分析哦度非常粗糙,仅仅是蹭热点。。。。
主要是因为我们依赖于这个V4的版本的Seurat流程做出来了大量的公共数据集的单细胞转录组降维聚类分群流程,100多个公共单细胞数据集全部的处理,链接:https://pan.baidu.com/s/1MzfqW07P9ZqEA_URQ6rLbA?pwd=3heo,而且也有海量的配套视频教程在b站,视频号等渠道,基本上大家能看到的中文笔记都是我们分享的。。。。
因为我自己能力限制,单细胞多组学,单细胞表观,单细胞免疫组库,空间单细胞这些比较新颖的技术在2023年8月份之前我是不可能去整理它们数据分析流程,所以如果不是普通的单细胞转录组数据,请绕行哈, 放过我吧。
单细胞转录组的流行趋势让我们惊讶,不少有钱的课题组甚至宣传以后只上单细胞转录组,传统的bulk测序干脆不做了,可是花了几百万经费拿到一堆表达矩阵,然后呢?
有奖转发活动 回复“抽奖”参与《2015年数据分析/数据挖掘工具大调查》有奖活动。 【编者的话】毫无疑问机器学习是大数据分析不可或缺的一部分,在使用机器学习技术的时候工程师除了要选择合适的算法之外还需要选择合适的样本数据。那么工程师到底应该选择哪些样本数据、选择多少样本数据才最合适呢?来自于Google的软件工程师Malay Haldar最近发表了一篇题为《数据模型需要多少训练数据》的文章对此进行了介绍。 训练数据的质量和数量通常是决定一个模型性能的最关键因素。一旦训练数据准备好,其他的事情就顺理成章了。但
万事开头难,考虑到很多小伙伴在做单细胞公共数据分析的时候往往是在第一个步骤读取作者上传的表达量矩阵去构建seurat对象就各种屏蔽,非常有必要把18种单细胞数据格式文件都给大家梳理一下 。 首先是,读
回首年前开创的单细胞天地公众号,再看看单细胞转录组知识星球的精华资源,一年时间就这样过去了,感慨万千!
不应该是盲目追求细胞数量的增加,普通的单细胞数据分析其实并不受细胞数量的影响而有所不同。让我们看看同济大学最近发表的文章 Cell Death and Disease (2022)13:23 ; https://doi.org/10.1038/s41419-021-04477-y ,标题是:《Single-cell transcriptomic analysis reveals the critical molecular pattern of UV-induced cutaneous squamous cell carcinoma》
值得注意的是,有一些包其实是在GitHub上面哦,如果你网络比较差,需要自己想办法解决,如果连包读无法安装,不妨试试看我们的**马拉松授课(直播一个月互动教学) ,可以看完我们从2000多个提问互动交流里面精选的200个问答!2021第二期_生信入门班_微信群答疑整理,以及 2021第二期_数据挖掘班_微信群答疑笔记
如果是10x的单细胞公共数据,比如 GSE128033 和 GSE135893,就是10x数据集,随便下载其中一个,就能看到每个样本都是走流程拿到10x单细胞转录组数据的3个文件的表达矩阵。
这个问题,说实话,很难回答,因为要是能完整回答这个问题,其实就是一篇正经的生物信息学文章了。
历经10年左右发展,单细胞测序技术目前有两大主流平台。分别是10X Genomics(Droplet-based)与Smart-seq2(Plate-based with reads),各有优劣。
这就是个性化分析阶段,这个阶段取决于自己的单细胞转录组项目课题设计情况,我们的介绍的各式各样的分析点,并不是通用的。比如如果要比较细胞亚群比例,就必须要有多个样本,如果是单个样本,可以看我们以前的教程:
我们生信技能树旗下的单细胞天地,只分享干货计划,致力于让每个人都能理解自己的单细胞数据,早日发表。
空间转录组,也称为 spatial gene expression,简称 ST-seq,是将转录组学,单细胞测序技术以及组织切片技术结合起来的技术。
实际上你需要理解的就是10x数据和Smart-seq2技术啦,最常用而且最常见!上游分析流程我们分开讲解,在群主的7个小时的单细胞转录组视频课程(限时免费) 视频里面演示的其实是Smart-seq2技术的单细胞转录组数据处理,而且仅仅是半个小时的教学,其实是需要你有非常多的背景知识才可能看得懂。
假设我们有一个seurat对象sce.all,默认的每个cell的样本来源信息是存储在sce.all对象中metadata的orig.ident部分(sce.all@meta.data$orig.ident),但是orig.ident中的内容是从1开始的数值,有N个样本,就有N个数值去代表这N个样本。在后续的作图分析中,如果样本信息只是数值,还要对应回原本的样本名去查看,这样并不直观。因此我们有这个需要将seurat对象中的orig.ident替换为真实的样本名字。
Cell Ranger 是 10X genomics 官网提供的单细胞数据分析软件。可以直接输入 Illumina 原始数据 BCL 或 FASTQ 格式,Cell Ranger 集成了 10 x genomics 单细胞数据分析的一整套流程模块,可以直接进行碱基识别,文库拆分、细胞拆分、输出表达定量矩阵、降维(pca),聚类以及可视化,配合另一套 Loupe Browser 软件,可以非常简单的探索单细胞数据。Cell Ranger 需要从 10 x genomics 官方网站进行下载,下载时需要注册,然后生成专属地址下载。
可以看到是4个分组,野生型和突变型的两种小鼠,各种都是疾病模型与对照的两个样品,都没有生物学重复,所以四个分组就是四个样品啦。跟我们在2021的尾巴在《生信技能树》和《单细胞天地》等公众号推出来的10X单细胞转录组钜惠套餐,详见:2个分组的单细胞项目标准分析,原价15~20万的6个10x单细胞转录组套餐,现价10万,比较类似。
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
目前,绝大部分小伙伴手上的单细胞转录组数据仍然是一个样品3万人民币左右,而单个项目通常是好几个甚至十几个或者几十个10x样品,取决于财力。如果你有这样的单细胞转录组项目那么数据处理不太可能就直接使用公司简单的降维聚类分群了,需要一些高级分析,比如拟时序,转录因子分析,细胞通讯, 它们大多对计算资源的消耗比较可观,并不是大家的个人笔记本电脑可以hold住的。我们根据过往的两百多个单细胞数据处理项目经验归纳总结出来了一个最适合单细胞转录组数据分析的服务器配置,而且进需要一个一个10x单细胞样品费用拿下你的专属64线程200G内存服务器。
绝大部分还没有接触单细胞的小伙伴很容易被无良自媒体带节奏,误以为单细胞就等价于CNS级别文章,或者再差也是子刊级别。实际上新技术的红利窗口期非常短暂,从样品量数据量的要求一直在水涨船高!比如我们看看某公司2020第四季度单细胞文章合辑,如下所示:
我博士求学期间所在的实验室长期(2015-2023)钻研类器官技术,虽然CNS成就没有达成,但是子刊级别的文章发表了一些。早期的类器官研究主要是通过多组学来说明类器官能很好的复现病人的特性,比如肿瘤外
最近有粉丝提到是否可以把多个样本混杂到一起建立一个10X单细胞转录组库进行测序后数据分析,的确是有这样的例子,比如我前些天在Twitter看到的发表在Nephrology Dialysis Transplantation, 的文章, https://doi.org/10.1093/ndt/gfz227 题目是:A single-cell map for the transcriptomic signatures of peripheral blood mononuclear cells in end-stage renal disease 就是这样。
因为单细胞目前比较贵,单个10x样本还是在3万左右的费用,大多数课题组就是想尝个鲜,不会测太多样本。如果你看完目前的近1000篇10x单细胞转录组文章就很容易发现规律,从2017到2020,样本量要求是越来越多了,而且想发CNS级别文章,样本数量也得上的去。 scRNA-seq技术到目前为止也有一百多个了,但主流的可以大致分为以下几种:
Cellranger mkfastq 管道可用于将 BCL 文件解码为单个库的 FASTQ 文件。如果测序提供程序已经完成了这一步,则可以直接使用每个库的 FASTQ 文件进行数据分析。cellranger mkfastq的本质是调用bcl2fastq生成bcl2fastq,并生成额外的10x样本信息。Bcl2fastq是 illumina开发的bcl到fastq的转换程序。cellranger下载安装地址如下:
本专辑将会系统性介绍单细胞图谱研究的标准数据分析思路,前面提到了:肿瘤样品的单细胞需要提取上皮细胞继续细分,眼尖的小伙伴们发现了一个问题, 就是它这个肝癌数据集里面的fibroblasts等细胞亚群占比非常少,如果真的要每个细胞亚群都继续细分, 对比例少的细胞分析起来会有误差。 我们再回顾一下这个发表于2020的文章,标题 是:《Single-cell transcriptomic architecture and intercellular crosstalk of human intrahepatic
单细胞 RNA 测序(Single cell RNA sequencing,scRNA-seq)是一种在单细胞水平上利用 RNA 测序对特细胞群体进行基因表达谱定量的高通量实验技术。待测组织经过单细胞分离、RNA 提取、逆转录、文库构建和测序,便可利用数据分析获得多个细胞的基因表达谱。
其中有一个环节是需要比较seurat分群以及singleR的分群,这样就可以合理的命名啦。
什么情况下,我们会用尽全身力气来分析我们的10x单细胞转录组样本的数据呢,最有可能的场合是,我们只有一个样本,有可能是样本本身非常稀有,又或者我们的经费确实有限,那我们就来看一下具体一点的例子吧。
Spatial relationship between gradients and tumor boundary
也就是说,作者认为,这个10X仪器的单细胞转录组数据走cellranger流程,其实是有一点问题的。
, and other distant ) referring to the aforementioned pipeline. As a result, we found that macrophages showed a high enrichment both in and
比如最近有粉丝咨询肺吸虫(Paragonimus westermani)也称“卫氏并殖吸虫”的转录组数据分析,我就顺手查了一下,发现ensembl等数据库并没有它的参考基因组信息。其中 2014 Aug 12. doi: 10.7717/peerj.484 发表了它的线粒体基因组,然后 January 2019, giy146, https://doi.org/10.1093/gigascience/giy146 有它的全基因组信息。
LINGO是一款专业的线性规划和非线性规划求解软件,以下是LINGO软件的主要功能和安装条件:
前面给大家简单的科普了空间转录组,可能还是有些人对背后的技术原理有些疑惑,那么我们深入的探讨一下技术原理。文末有视频会更直观。
空间转录组学 (ST) 技术正迅速成为单细胞 RNA 测序 (scRNAseq) 的延伸,具有以接近单细胞分辨率分析基因表达的潜力,同时保持组织内的细胞组成。同时拥有表达谱和组织空间信息使研究人员能够更好地了解细胞相互作用和异质性,从而深入了解传统测序技术无法实现的复杂生物过程。ST技术生成的数据本质上是嘈杂的、高维的、稀疏的和多模态的(包括组织学图像、计数矩阵等),因此需要专门的软件来进行深入分析。目前很多研究人员仍然借助单细胞的分析软件来分析空间转录组,但事实证明这些工具不足以分析复杂的 ST 数据集,这一篇我们就来对空间转录组的分析进行梳理。
本期是新鲜出炉的单细胞转录组文章,而且是研究持续大热了几十年的阿尔茨海默症,文章发表于Nature. 2019 May 1. doi: 10.1038/s41586-019-1195-2. 标题非常简练:Single-cell transcriptomic analysis of Alzheimer's disease.
10× Genomics单细胞免疫组库VDJ分析必知必会(https://www.jianshu.com/p/db4831091a5c) 免疫组库数据分析||immunarch教程:快速开始(https://www.jianshu.com/p/9d7711879bf5) 免疫组库数据分析||immunarch教程:克隆型分析(https://www.jianshu.com/p/287f890d7ef4) 免疫组库数据分析||immunarch教程:探索性数据分析(https://www.jianshu.com/p/dd4fcfb63627) 免疫组库数据分析||immunarch教程:载入10X数据(https://www.jianshu.com/p/7379d0a809a8) 免疫组库数据分析||immunarch教程:GeneUsage分析(https://www.jianshu.com/p/0dbdd6733b34) 免疫组库数据分析||immunarch教程:Diversity 分析(https://www.jianshu.com/p/8b846094c092) 免疫组库数据分析||immunarch教程:Clonotype tracking(https://www.jianshu.com/p/79ee2c5871a7) 免疫组库数据分析||immunarch教程:Clonotypes annotation(https://www.jianshu.com/p/effc2ad05f47) 免疫组库数据分析||immunarch教程:Kmer 与 Motif 分析(https://www.jianshu.com/p/f2b7d0153432)
scATAC-seq已成为剖析调控环境和细胞异质性的强大工具。近日,《Nature Biotechnology 》发表了一项scATAC-seq方法的基准测试,研究人员使用人类外周血单核细胞(PBMC)作为参考样本,对8种scATAC-seq方法的性能进行了基准测试,并开发了PUMATAC(一种通用的预处理流程),用于处理各种测序数据格式。
上期专题我们介绍了单细胞转录组数据的基础分析,然而那些分析只是揭开了组织异质性的面纱,还有更多的生命奥秘隐藏在数据中等待我们发掘。本专题将介绍一些单细胞转录组的高级分析内容:多样本批次校正、转录因子分析、细胞通讯分析、基因集变异分析和更全面的基因集富集分析。不足之处请大家批评指正,欢迎添加Kinesin微信交流探讨! inferCNV简介 inferCNV是大名鼎鼎的broad研究所开发的,可以使用单细胞转录组数据分析肿瘤细胞CNV。相关文章2014年就发表在了Science上,之后算法不断优化,分析结果也
其实如果你看过我表观组学系列,比如《ChIP-seq数据分析》 和 《ATAC-seq数据分析》 就会知道这些技术都可以被单细胞化, 如果你具备比较好的背景知识,理论上是可以自己根据文档把它们对应的单细胞水平的数据分析摸索成功。那就作为学徒作业吧,摸索scChIPseq数据分析流程!
领取专属 10元无门槛券
手把手带您无忧上云