测序(Sequencing)是一种实验技术,用来识别和确定 DNA 分子中碱基的顺序。不同的测序类型应该使用不同的方法来分析,最后的结果解读方式也会不同。在实际应用中,具体选择哪一种测序类型,由研究的科学目标、成本及实际限制来决定。例如,在临床应用上,对已知突变位点的检测是时间敏感的,即测序和分析越快越好,而群体的基础研究更侧重于挖掘新的变异。因此,测序类型的选择是成本和信息广度之间权衡的结果。
大家可以自行前往《单细胞天地》公众号寻找其对应的中文翻译整理版本,现在是2021了,所以再加一个综述:《Critical downstream analysis steps for single-cell RNA sequencing data》,Briefings in Bioinformatics, , https://doi.org/10.1093/bib/bbab105
This is day 7 homework, the last one for BIC by 生信星球.
学习资源真心是比想学习的人还多,不信你就看下去!说实话,写完公众号,我看到这个当时就傻眼了:
大浪淘沙,好多基因测序仪厂家已经被历史的车轮甩在了滚滚红尘里,还余下几家大的公司屹立在市场上,有的正在垄断市场(Illumina),有的是正在急速掘起的翘楚(Oxford Nanopore, Pacbio),还有的是国产的希望(华大智造)。今天,让我们来再看一下它们主流机器的参数,来对比下机器的性能。
GATK,即Genome Analysis Toolkit,GATK 在鉴定肿瘤的SNP, INDEL, CNV 等方面也堪称行业标准。
对tcga那样的超大规模协同组织,样品弄混的事情可能很少发生,但是该做的质量控制仍然是必不可少的。对小课题组来说,怀疑自己的多个样品是否来自于同一个病人就很正常不过了,比如大清早我就在群里看到了这样的问题:
单细胞转录组测序通常是基于二代测序平台,具有相对较低的成本和高通量的优势。由于二代测序建库过程需要对cDNA进行打断,无法同时获得细胞标签和全长转录组数据,所以对单细胞转录本的变化知之甚少。而三代测序可以获得全长转录组数据,对于挖掘新转录本以及isoform有着重要的意义。
第二代测序(Next-generation sequencing,NGS)又称为高通量测序(High-throughput sequencing),是基于PCR和基因芯片发展而来的DNA测序技术。二代基因测序引入了可逆终止末端,从而实现边合成边测序(Sequencing by Synthesis)。二代测序在DNA复制过程中通过捕捉新添加的碱基所携带的特殊标记(一般为荧光分子标记)来确定DNA的序列,现有的技术平台主要包括Roche的454 FLX、Illumina的Miseq/Hiseq等。
是由National Cancer Institute ( NCI, 美国国家癌症研究所) 和 National Human Genome Research Institute (NHGRI, 国家人类基因组研究所) 合作建立的癌症研究项目,通过收集整理癌症相关的各种组学数据,提供了一个大型的,免费的癌症研究参考数据库。
自从2009 年首篇关于scRNA-seq的文章发表以来,这项技术正在被广泛的采用。随着测序平台商业化的迅速发展和相关生物信息学方法的不断成熟,带来了很多生物医学领域新的发现。上期我们简单的介绍了scRNA-seq的背景和数据的复杂性,这一期我们将和大家一起深入了解一些技术细节。只有充分了解了数据复杂性的缘由,我们才能够更好的理解分析流程并且灵活的运用分析方法。
我组织的第一个活动是文献分享,第二周是关于ctDNA里面的甲基化在癌症诊断和预后的,都是中山大学肿瘤医院的大文章。
目前主流三代测序平台除了Oxford 家的 Nanopore,还有 Pacific Biosciences(简称 PacBio)公司的 Single Molecule Real-Time(SMRT)Sequencing。 该平台的优势在于:
与其说是一本书,不如说是博士生论文,它的名字叫做Understanding the Cellular Ecology of Mtb Granulomas Using Single-Cell Sequencing。与这份毕业论文的缘分,要从一个习惯讲起:隔三岔五地会用Understanding和Single-Cell Sequencing作为关键词在学术期刊中查询一些文章,以期看看单细胞测序还有哪些新的方向和视角。
欢迎大家打开本次推送~从本期推送开始,将由 ? 小编为大家整理《陈巍学基因》的笔记。 《陈巍学基因》是一系列由陈巍老师主讲的视频节目,从 15 年开始更新(视频所示部分技术并非文章发布时「2020
Link:https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6160831/?report=classic Journal: MycoKeys IF: 2.43
我就随便点开看了看,顺手把它们转存了,但直到今天还没有打开任意一本书,的确,收藏就是雪藏!
同样的,因为生信技能树90%教程出自我本人,所以基本上我还没有涉猎到的项目就不太可能有教程,甚至该领域中文教程几乎是空白。好在我交友还算比较广,所以邀请了不同系列专栏作者投稿到生信技能树发布他们的笔记!
其实前面我们已经分享了MiXCR,还有igblast,这两个免疫组库上游分析软件已经够用,如下:
其实两者均可用于检测遗传变异,特别是在单核苷酸变异方面(SNVs)。如果大家对RNA-seq数据如何找变异位点的流程不是很清楚,可以看我们生信技能树以前的教程:
本文将联系原推文 单细胞实战(五) 理解cellranger count的结果 对我们上一部分获得的cellranger定量结果文件进行解读
发表于 Epigenetics . 2016; 链接 https://pubmed.ncbi.nlm.nih.gov/26786415/,文章标题是:《Comparison of Methyl-capture Sequencing vs. Infinium 450K methylation array for methylome analysis in clinical samples》,随着 甲基化技术的深入人心, epigenome-wide association studies (EWAS) 时代到来了,但是临床上的EWAS研究要求成本可控,而且样品DNA起始量低,但是红极一时的450K芯片不尽人意,所以研究者们想试试看Methyl-Capture Sequencing (MC Seq) 能否替代450K。
文章发表于:Cell. 2018 May。题目是:Chemoresistance Evolution in Triple-Negative Breast Cancer Delineated by Single-Cell Sequencing.
目前主流三代测序平台除了Oxford 家的 Nanopore,还有 Pacific Biosciences(简称 PacBio)公司的 Single Molecule Real-Time(SMRT)Sequencing。该平台的优势在于:
所以我这里安排一个学徒作业,大家需要去下载TCGA数据库的BRCA这个癌症的芯片和RNA-seq的表达矩阵,分别进行差异分析,拿到统计学显著的上下调基因列表。
当地时间8月20日,由加州大学旧金山分校研究人员领导的团队于Cell(《细胞》)杂志发表了题为“Therapy-Induced Evolution of Human Lung Cancer Revealed by Single-Cell RNA Sequencing”的文章。研究人员通过对转移性肺癌患者靶向治疗前后的组织样本进行单细胞转录组测序,获得了超过2万份癌细胞和肿瘤微环境细胞的转录组图谱,进而分析发现了这些细胞所展现出的极为复杂和动态的肿瘤生态系统,揭示了癌细胞的分子多样性、治疗诱导的免疫微环境可塑性,有望改善当前肺癌治疗的临床疗效。
实际上, 这个方法还是过于粗糙了,肿瘤微环境的复杂程度,远不止基质和免疫细胞简单的归类。我随手查了一个比较新的综述文章:《Tumor microenvironment complexity and therapeutic implications at a glance》,链接是https://biosignaling.biomedcentral.com/articles/10.1186/s12964-020-0530-4,感兴趣的可以自己研读。免疫细胞有淋巴系的T,nk和b细胞,还有髓系的dc和TAM等等,统一的免疫细胞比例肯定是很难说明肿瘤真实的免疫情况,因为不同免疫细胞的作用并不一样。
一般的文章里面会给出数据地址,如下:根据文章的GSE号进入GEO数据库里面,就可以看到其对应的SRA数据库ID号。
其实是没办法简单的回答是否可以整合TCGA和GTEx数据库,或者说该如何结合,这背后的统计学略微有点复杂,不仅仅是批次效应。发表在Sci Data. 2018; 的文章:Unifying cancer and normal RNA sequencing data from different sources 就比较详细的说明了TCGA和GTEx数据库的转录组数据的天然差异:
tcga数据库的部分病人有转录组测序信息同时也有对应的somatic突变信息,只需要结合两者理论上是可以完成任意癌症的任意基因突变与否分组后的转录组测序的差异分析。
基因测序包括全基因组,全外显子组,以及捕获基因测序,不同技术研究的基因组范围不一样,都有自己合适的方向。还有另外一种分类是基于生物学应用,比如肿瘤外显子,家系外显子等等。
不知不觉在单细胞转录组领域做知识分析也快两年了,很幸运聚集了五个小伙伴携手共进,我们承诺不间断更新5个月,把我们这两年的学习成果全部掏出来给大家,包括5个栏目:
由于技术因素,scRNA-seq数据可能由于每个细胞中检测到的分子数量不同导致细胞与细胞间的差异。为了解决区分生物学异质性与技术造成的差异,本文提出正则化负二项分布中的皮尔逊残差(其中细胞测序深度用作广义线性模型中的协变量)在保留生物异质性的同时成功地消除了测序深度的影响。 文章原文:https://link.springer.com/article/10.1186/s13059-019-1874-1
降维聚类分群是一个非常普遍的信息提炼方式,在TCGA多组学领域都有应用,众所周知,TCGA数据库是目前最综合最全面的癌症病人相关组学数据库,包括:
一般来说,NCBI数据库提供的prefetch命令下载sra文件速度太慢,可以参考:使用ebi数据库直接下载fastq测序数据 , 需要自行配置好,然后去EBI里面搜索到的 fq.txt 路径文件:
单细胞测序(single-cell sequencing),顾名思义就是能从单个细胞中获取遗传信息的测序技术。单细胞测序技术为什么近来大火,那么它能帮科研工作者能解决哪些问题?单细胞测序技术原理和以及存在的问题有哪些?带着这些疑问,今天起跟随小编开启单细胞学习之路。
名称来历 GCG, the old bioinformatics package, was named after the authors kept high-fiving each other, shouting “good code guys!”. (GCG is a software package for the analyses of gene and protein sequences.) Bowtie is named so because “it is almost impossible t
ARTIC Network(https://artic.network/),这个项目是由英国惠康基因会(Wellcome Trust)资助,旨在为病毒爆发开发方案,提供实时的流行病学信息。项目组开发了一组针对新型冠状病毒的实验室和生物信息学工作流程。这个工作流程最早适用于非洲埃博拉病毒的测序诊断工作。目前新冠疫情全球大流行,就顺势利用到了新冠病毒的测序研究中。目前这个团队一直都在努力优化这个工作流,包括前面我们介绍到的如何扩增病毒全基因组序列,也是来自这个团队的研究成果。必须感谢这个团队的努力工作,为这次疫情做出科学研究上的贡献。
一般来说,这样的基因集预后模型数据挖掘文章都是临床医师的专享,大家耳熟能详的策略有;
• A comprehensive evaluation of normalization methods for illuminating high-thoughput RNA sequencing data analysis
上次给大家安利了一款神器,零代码差异表达分析, DESeq,limma,edgeR一网打尽,可能大家觉得那是纸上谈兵,demo数据有啥意思,要就来真格的。好的,那么今天就真枪实弹干一场。
WGS的在遗传病检测中的临床应用专家共识已经发布一段时间了,但如果只是用WGS来分析SNV、CNV、SV和mtDNA变异就有点太吃亏了,WGS可分析挖掘的内容是在太多了,本人从github上随意找了些,列举如下:
文章:Qiao Y, Huang X, Moos PJ, Ahmann JM, Pomicter AD, Deininger MW, Byrd JC, Woyach JA, Stephens DM, Marth GT. (2024) A Bayesian framework to study tumor subclone-specific expression by combining bulk DNA and single-cell RNA sequencing data. Genome Res
Graphical representation of allelic heterogeneity at a locus with common and low frequency/rare variant associations with a complex trait. Turquoise bars represent trait-related variants carried by different individuals at a locus of interest. Bar width represents variant frequency (wider bars denote variants with higher frequency). Single-point association analysis of the low frequency/rare variants has extremely low power, but composite analysis by considering all variants of interest locus-wide is a more powerful alternative.
但是实际上肿瘤外显子队列是很烧钱的,通常来说,一个肿瘤病人需要测50X的血液加上200X的肿瘤,基本上3000块钱是跑不了的,100人的队列就是三十好几万了。而且收集100个肿瘤病人也只能说是背靠大医院平台了。
https://www.nature.com/articles/s41586-022-04808-9#MOESM8
1、Cell专题发表全球首批生命时空图谱,国家基因库发布时空组专辑数据库开启文献“可视化解读”新模式!(qq.com)
自从 1990 启动的家喻户晓的人类基因组计划开始,全世界的科学家竭尽全力破译了第一个完整的人类基因组,从那时开始人类拿到了一本只有 ATCG 四个碱基书写的天书。后续人们逐步完善了基因组序列信息,并写在 Fasta 格式的文本文件“天书”中,这本天书就叫做参考基因组。
根据所使用的文库制备方法,RNA 序列(也称为读数或标签)将来自转录本(10X Genomics、CEL-seq2、Drop-seq)的 3' 末端(或 5' 末端) , inDrops) 或来自全长转录本 (Smart-seq)。
领取专属 10元无门槛券
手把手带您无忧上云