确实,我们虽然有一个专注于单细胞数据处理技术分享的公众号:《单细胞天地》,但确实是一直专注于常规的单细胞转录组数据分析,无非是降维聚类分群,以及不同分组看细胞亚群比例差异或者表达量差异。上游就是我们多次分享过cellranger流程的笔记,大家可以自行前往学习,如下:
资料库:10xgenomics.com/resources/document-library
绝大部分还没有接触单细胞的小伙伴很容易被无良自媒体带节奏,误以为单细胞就等价于CNS级别文章,或者再差也是子刊级别。实际上新技术的红利窗口期非常短暂,从样品量数据量的要求一直在水涨船高!比如我们看看某公司2020第四季度单细胞文章合辑,如下所示:
回首年前开创的单细胞天地公众号,再看看单细胞转录组知识星球的精华资源,一年时间就这样过去了,感慨万千!
这不是最好的时代,也不是最坏的时代,这里是单细胞时代。灵活的单细胞系统,高效的组织解离液,开源的数据分析工具,端到端的单细胞解决方案是未来发展的趋势。这里最主要的是开放灵活的单细胞系统,有了这个系统我们就可以自主地设计反应体系,来从不同纬度捕获单个细胞的信息。
近年来单细胞测序得到了飞跃式的发展,其横向上扩展到其他层面,如用于表观基因组分析的单细胞亚硫酸盐测序,纵向上扩展到多个组学数据整合和其他信息的整合,如空间转录组。近日,《Briefings in Functional Genomics》发表了一篇综述文章,系统地涵盖了单细胞测序中使用的技术和算法,并从横向和纵向两个维度上进行了扩展,还从助力癌症研究这一转化方向做了介绍。
这两个方向都需要掌握基础的单细胞转录组数据集的降维聚类分群即可,这不过两个方向其实都是只需要一个数据集即可,而且因为单细胞数据处理对计算机资源要求比较高,绝大部分小伙伴也更倾向于处理单个数据集。
"喜看稻菽千重浪,遍地英雄下夕烟"。快速发展的单细胞生物学(Single-cell ,为我们理解细胞类型、细胞状态、细胞间相互作用和组织结构提供了单细胞水平视野。单细胞分析适于解析细胞异质性较高的的动态生物学过程,如细胞命运决定、组织模式和发育轨迹推断。除了这些生理背景外,单细胞方法也被广泛应用于疾病研究,癌症和传染病。了解疾病背景下的细胞异质性具有重要的临床应用,包括开发改进的诊断工具和靶向治疗方法。此外,单细胞生物学使细胞重编程与合成生物学结合成为可能。
最近看到了一个比较清晰明了的综述,适合癌症领域研究者初次接触单细胞技术前阅读,标题是:《Single-cell transcriptomics in cancer: computational challenges and opportunities》,该综述并没有过多描述单细胞数据分析的方方面面,也不是罗列降维聚类分群等步骤的各个不同软件算法:
首先基本上每个器官组织都有了各自的单细胞转录组数据,就可以降维聚类分群啦,然后每个器官组织的相关高发疾病都是有gwas结果列出来了其疾病相关基因,仅仅是需要看看疾病相关基因是否在单细胞亚群有特异性即可。
回想起来自己从事生物相关的研究已经大概15年了,从研究生进入实验室也有10年时间,陆续从硕士,博士到博后,研究地点也从化学学院,到药学院再到医院科室。自己做的研究是“干-湿”实验结合的,发表的成果也是各自一半,但是综合起来还是生物信息分析的文章发表的影响因子高一些。到现在由于工作场所频繁发生变化,反而没有稳定的场所做实验,所以愈发的在生物信息方面下较多的功夫。因此我对这十几年来的生信研究进行总结,希望帮助新手克服生物信息陡峭的学习曲线,当然我自己也不是科班出身的,也希望与你一起交流学习。所有的内容均是以自己的实验数据(会明确下载地址给读者)操作来进行,避免某些在demo运行很好却在自己的环境中出现bug的情况。最后一点,现在通讯太发达了,欢迎大家与我V:cll7658直接交流共同进步。
简单的扩充到配合几十种上百种组织器官单细胞公开数据,成百上千个数据挖掘思路就出来了,当然了做到这些需要的数据分析基础必不可少啦。
动物单细胞的研究有将近10年了,每年都是CNS的常客。在国内形成了北汤南郭的局面,一个是单细胞转录组的世界第一人,一个促成了单细胞从追求深度到追求数量的转变。具体见Hemberg-lab单细胞转录组数据分析(二)- 实验平台。
我们生信技能树旗下的单细胞天地,只分享干货计划,致力于让每个人都能理解自己的单细胞数据,早日发表。
细胞(cell)是生物体基本的结构和功能单位。除病毒之外的所有生物均由细胞所组成。一般来说生物体所有细胞中包含相同的遗传物质 DNA,但会进行不同的转录表达,最终分化为不同的细胞。这些细胞相互作用并扮演不同的角色,在更大的体系中构建并驱动多个过程。传统的测序都是基于多细胞进行测序,对组织进行 DNA 或 RNA 提取,然后进行测序。
主要是因为我们依赖于这个V4的版本的Seurat流程做出来了大量的公共数据集的单细胞转录组降维聚类分群流程,100多个公共单细胞数据集全部的处理,链接:https://pan.baidu.com/s/1MzfqW07P9ZqEA_URQ6rLbA?pwd=3heo,而且也有海量的配套视频教程在b站,视频号等渠道,基本上大家能看到的中文笔记都是我们分享的。。。。
不过我感兴趣的并不是他们做的单细胞资源整理,尽管他们收集了超过500个单细胞转录组研究的数据,我感兴趣的是他们文末的一个补充结论:
差不多几个小时就可以完成全部的样品的cellranger的定量流程,拿到表达量矩阵文件,常规的降维聚类分群,参考前面的例子:人人都能学会的单细胞聚类分群注释 ,走seurat流程进行单细胞降维聚类分群,这样的基础分析,有基础10讲:
自北京大学汤富酬教授(当时为英国剑桥大学格登研究所(Gurdon Institute) Azim Surani实验室博士后)等人于2009年在Nature Methods上发表首个单细胞测序(single cell sequencing)方案以来【1】,这项革命性技术已历经十年的飞速发展;分子生物学、微流控(microfluidics)技术和纳米技术等关联技术的长足进步催生了数十种全新的单细胞测序方案,使测序细胞数目呈现指数级增长 (生信宝典注:指数级增长的转折点是郭国骥老师的工作)(下图)【2】。同时,通过谷歌搜索趋势分析可以发现,对单细胞测序这一词条的相对搜索频率在全球范围内一直呈稳定上升趋势,甚至在2018年超过了同样仅有十余年应用史的重要分子生物学测序方法——染色质免疫共沉淀测序(ChIP-seq)(下图)。
单细胞即是在单个细胞水平上来考察组织生物学信息,在单细胞时代之前,人们获得组织生物学信息有两个层面:组织水平和分子水平,单细胞技术弥补了这两者之间的鸿沟。众所周知,细胞是生物的基本构成单位,不管之前的组织水平还是将来的亚细胞(细胞器)水平,都会回归到单细胞水平,或在需要单细胞水平上得到的解释。
今年1月2022Nucleic Acids Research生物数据库特刊上线,包含185篇文章:其中87篇论文报告了新数据库;85篇更新了该期先前发表的资源;13篇提供了最近在其他期刊发表的数据库的更新。
什么情况下,我们会用尽全身力气来分析我们的10x单细胞转录组样本的数据呢,最有可能的场合是,我们只有一个样本,有可能是样本本身非常稀有,又或者我们的经费确实有限,那我们就来看一下具体一点的例子吧。
单细胞数据分析现在已经有上千个软件工具可供使用了,这为用户带来便利的同时也造成了选择困难。就像时间一样,一个表,没问题,但如果有两个表,时间还不一样,该信谁的呢?
如果让我推荐一本比较全面的单细胞数据分析教材,我想会是《Computational-method-for-single-cell-data-analysis》。在2019年刚出版没多久的时候,就有趁着一次生物信息会议之后,打印了这本书(仅作个人学习之用)。
差不多几个小时就可以完成全部的样品的cellranger的定量流程,但是如果初次接触这个 基于10x的单细胞转录组fastq文件的cellranger的定量流程,仅仅是看上面的推文,会漏掉一些基础知识,仅仅是安装cellranger和跑它的标准代码而已。
大量的多组学分析,如多维基因组学和蛋白质基因组学分析,已被证明有利于获得对细胞事件的全面了解。这一优势促进了单细胞多组学分析的发展,使细胞类型特异性基因调控得以检测。
method有4种:VISION, AUCell, ssgsea和gsva。作者推荐VISION。
今天给大家介绍的是俄亥俄州立马勤教授在nature reviews molecular cell biology发表的文章《Deep learning shapes single-cell data analysis》。作者在此篇综述文章中主要提到了深度学习模型对于单细胞测序领域具有巨大的潜力。目前已经在单细胞领域中应用了大量深度学习模型来进行数据分析,但仍有许多挑战和可能的新发展有待探索。在这篇评论中,作者考虑了采用深度学习方法来分析单细胞数据的进展、局限性、最佳实践和前景。
在研究一个基因之前,首先还是要了解这个基因的基础表达情况的。在之前的一些推送当中,我们介绍过一些关于基因表达情况查询的数据库
轨迹推断(Trajectory Inference,TI),是分析从千上万单细胞的组学数据中推断细胞发育轨迹的重要方法,也被称为伪时序分析 (pseudotime analysis),该方法根据细胞表达模式的相似性对细胞进行排序。这为应用单细胞转录组学、蛋白质组学和表观组学数据研究细胞内的动态过程,如细胞周期、细胞分化和细胞激活等,提供了新的契机。
2022年2月23日,俄亥俄州立大学医学院生物医学信息学系的 Qin Ma 和密苏里大学电子工程和计算机科学系的 Dong Xu 在 Nat Rev Mol Cell Biol 杂志 (2020年影响因子94.444) 发表文章,介绍了深度学习方法在单细胞数据分析中应用的进展、局限性、最佳实践和前景。
对于对于测序而言,单细胞测序算是很火的一个测序技术了。简单来说单细胞测序技术的,就是对每一个细胞来进行测序。相较于之前的RNA-seq而言,我们其实是对某一块组织所有的RNA进行检测,由于一块组织里面有好多的细胞,而且这些细胞也不一定全是肿瘤细胞,所以说我们对于这些细胞的测序获得的基因表达的结果,有可能并不是肿瘤的表达情况。这个时候如果做单细胞测序的话,那就会检测每个细胞当中基因的表达情况了,这样分析的结果就更加精确了。
近年来单细胞转录组测序的迅猛发展,为细胞功能和基因调控网络等重要生物学问题的研究提供了强大的技术支持。在单细胞转录组数据的相关研究中,研究者通常会先对细胞进行注释,如鉴定细胞类型、细胞分化阶段等,然而,常用的注释手段较为繁琐,且无法保证不同数据集间的可比性。随着单细胞转录组数据逐渐积累,用现有数据集作为参考(reference),来注释新测序的细胞成为一种潜在的解决方案。
因为单细胞数据在呈指数增长,遇到大数据集只是早晚的问题。曾经我们困惑一个物种的基因组那么大,如果给很多物种都测基因组的话,拿什么来存储这些数据?随着单细胞技术的成熟,测序成本的下降,眼见单细胞数据通量将会呈现超指数增长。在bulk时代所几十例转录组会觉得已经做了很多了,而单细胞时代少则几千大则百万的数据量。我们不能怪时代太快,只能怪自己没有做好心理准备。
随着高通量测序技术的不断发展,科研领域对测序技术的应用也越来越广泛。可以发现,现在的研究已经从单一组学的研究逐渐过渡到多组学联合使用,从基因组,转录组或蛋白组等多层面共同解析生物学意义。
所以我自己在2019年录制了两套不同层级的单细胞转录组数据分析视频教程,还配套了视频学习笔记,今年(2020)在培养学徒的过程中,我又安排学徒根据这两套视频精炼成为了10个笔记,大家可以在:单细胞转录组数据的个性化分析汇总全部找到。
参考我前面介绍过 CNS图表复现08—肿瘤单细胞数据第一次分群通用规则,这3大单细胞亚群构成了肿瘤免疫微环境的复杂。绝大部分文章都是抓住免疫细胞亚群进行细分,包括淋巴系(T,B,NK细胞)和髓系(单核,树突,巨噬,粒细胞)的两大类作为第二次细分亚群。但是也有不少文章是抓住stromal 里面的fibo 和endo进行细分,并且编造生物学故事的。
如何快速找到单细胞数据?有没有可以在线分析单细胞数据的工具?...其实,这些需求单细胞数据库都可以实现。这篇大集合汇总了之前小编亲测的10个单细胞数据库,可以帮助您进行细胞注释和分析,也可以用作研究前期的数据探索。
因为单细胞目前比较贵,单个10x样本还是在3万左右的费用,大多数课题组就是想尝个鲜,不会测太多样本。如果你看完目前的近1000篇10x单细胞转录组文章就很容易发现规律,从2017到2020,样本量要求是越来越多了,而且想发CNS级别文章,样本数量也得上的去。 scRNA-seq技术到目前为止也有一百多个了,但主流的可以大致分为以下几种:
这个问题,在我们的各种微信交流群确实是看到过,恰好有一个小伙伴也在数据集(PRJNA777911)进行了测试,这个是汕头大学那边课题组的2021的食管癌单细胞成果,是发表在NC的文章:《Integrated single-cell transcriptome analysis reveals heterogeneity of esophageal squamous cell carcinoma microenvironment》
在一些重要的生物学问题中,需要对单细胞中的蛋白组数据进行定量分析。这篇文章中,作者提出了根据单细胞蛋白质组数据对人类肿瘤细胞类型进行识别的方法——SCoPE-MS ,并在小鼠正在分化的胚胎干细胞中定量了超过一千种蛋白质。单细胞蛋白质组学提出了利用蛋白质组数据对细胞类型定义的新方法,并能推断细胞类型与特定的蛋白质丰度之间的潜在关系。单细胞蛋白质组与转录组之间的对比分析表明,mRNA和蛋白质水平之间存在共变关系,而许多基因能在mRNA和蛋白质水平发挥协同调控作用。
科学技术的进步促进了我们世界奥秘更为深入的理解。在生命科学研究领域,过去20年中对现代生物学和医学研究产生巨大影响的技术莫过于二代测序技术的逐渐成熟、推广和相关下游技术的开发。二代测序技术打开了从基因组水平去开展疾病诊断、基因鉴定和功能研究的大门。
之前我们已经分享了很多关于单细胞转录组测序(scRNA-seq)的实验技术、分析方法、数据集等,那么以蛋白质组为目标的单细胞分析技术有哪些?它们有哪些应用?
本文介绍由清华大学生命科学学院生物信息学教育部重点实验室、北京结构生物学高级创新中心和生物结构前沿研究中心、合成与系统生物学研究中心的Qiangfeng Cliff Zhang通讯发表在 Nature Communications 的研究成果:作者提出了SCALEX,一种深度学习方法,通过将细胞投射到一个批次不变的、共同的细胞嵌入空间,以真正的在线方式(即不需要重新训练模型)整合单细胞数据。SCALEX在不同模式的基准单细胞数据集(scRNA-seq,scATAC-seq)上的表现大大优于在线iNMF和其他最先进的非在线整合方法,特别是对于有部分重叠的数据集,在保留真正的生物差异的同时准确地对齐类似细胞群。作者通过构建人类、小鼠和COVID-19患者的可持续扩展的单细胞图谱来展示SCALEX的优势,每个图谱都由不同的数据源组装而成,并随着每个新数据的出现而不断增长。在线数据整合能力和卓越的性能使SCALEX特别适合于大规模的单细胞应用。
老实说,过去的三年虽然说我一直在朋友圈刷到有空间单细胞的cns文章,但我实际上是瞧不起这个技术的。首先它仅仅是给大红大紫的单细胞转录组续命而已,其次它根本就不是真正的单细胞水平,所以绝大部分数据分析哦度非常粗糙,仅仅是蹭热点。。。。
领取专属 10元无门槛券
手把手带您无忧上云