其实跟纯粹的单细胞转录组就非常类似了,不过单细胞转录组数据分析的细节以及背景我就不赘述了,看我在《单细胞天地》的单细胞基础10讲:
在上一期奇怪的转录组差异表达矩阵之实验分组中,我们谈到DESeq2输出NA的问题,这周我们仍使用上周 GSE126548-分组差异并不大,这个数据集来进行分析
https://www.biorxiv.org/content/10.1101/2024.02.27.582236v1.abstract
转录组的标准分析,比较容易复现,基本上看我六年前的表达芯片的公共数据库挖掘系列推文即可;
在单细胞研究中,最重要的一个环节就是细胞类型注释,这是一个极其考验研究者研究背景和精力的工作,但随着单细胞的研究越来越多,可提供给我们的细胞类型的marker信息也越来越丰富,基于这些marker信息开发的细胞注释算法使得我们的细胞注释工作越来越省力,今天就跟随小编的脚步来盘点一下最常用的细胞类型注释工具吧!
上一期我们推荐的是转录组经典表达量矩阵下游分析大全 本期我们聊聊可变剪切,流程里面写的差异转录本,或者差异外显子,都差不多的意思。
27K的数据是很老的芯片数据,但是客户有需求就要找方法分析,主流的DNA甲基化芯片R包minfi和champ都只支持450K和850K的芯片。所以在bioconductor中搜索到了methylumi这个包,可以从idat读数据,经过质控得到beta值矩阵,之后用limma做差异分析。
如果仅仅是一两个位点, 我们可以很容易通过各种各样的网页工具去查询到它的序列信息,但是高通量测序的结果往往是成千上万的,就算是节省成本,一般来说也会挑选100个左右的位点拿去设计引物进行sanger测序,一个个网页查询工作量有点大,这个时候就可以使用代码实现批量查询。
全部bioconductor流程链接在;http://www.bioconductor.org/packages/release/BiocViews.html#___GeneExpressionWorkflow
小编本身是做小麦的,也属于非模式生物的范畴。以前的话,非模式生物要用blast2go跑电子注释,而blast2go又需要使用MySQL,没有root权限的话非常麻烦。所以非模式生物如何做富集分析也困扰了小编很久,直到有一天,小编发现了Y叔的神包“ clusterProfiler ”!可以轻松做富集分析!
小编最近在统计基因组内每个基因的外显子长度,原以为非常简单,直接查找外显子的位置计算就可以,但写脚本的时候才发现非常麻烦。因为基因组中很多外显子区域是重合的,粗暴的将每个外显子的长度加在一起是不对的,这时我们可以使用R包"GenomicFeatures "去除外显子重叠的部分,优雅的统计每个基因的外显子长度。
比如大多数人就是做了两分组的六个样品,十万块钱左右的项目。但是呢,因为金主们的外行,所以很多公司走标准流程的过程中其实可以完全不做单细胞的建库测序出真实数据,可以凭空捏造数据。。。。
先安装 ChromHeatMap 包,里面存放有 cytoBand坐标信息,可以简单检查一下。
上一讲我们提到了,跟着cytofWorkflow,可以使用read.flowSet函数全部的FCS文件后,会产生一个对象,这里面变量名是 samp 。其实cytofWorkflow只是一个流程而已,这个read.flowSet函数来自于R包。
这个数据集很出名,截止2019年1月已经有近400的引用了,后面的人开发R包算法都会在其上面做测试,比如 SinQC 这篇文章就提到:We applied SinQC to a highly heterogeneous scRNA-seq dataset containing 301 cells (mixture of 11 different cell types) (Pollen et al., 2014).这里面的表达矩阵是由 RSEM (Li and Dewey 2011) 软件根据 hg38 RefSeq transcriptome 得到的,总是130个文库,每个细胞测了两次,测序深度不一样。
The R-package regioneR v1.8 (Gel et al., 2016; R Core Team, 2016) was used to test resistance genes and genes exhibiting PAV and transposable elements for association using 500 permutations. For PAV association, the evaluation function numOverlaps was used to check whether the number of gene overlaps is higher than expected. For TE association, the evaluation function meanDistance was used since we do not expect TEs to overlap with RGA candidates due to repeats having been masked during the annotation process
我们在日常分析中,有时会比较不同物种间motif序列结构的保守性。今天小编教大家使用R包“ motifStack ”绘制美观的motif序列结构图!
新鲜出炉的第三版,更新也很大,全面拥抱了ggplot体系。对我来说,比较新的知识点可能是一些小技巧,这里借花献佛给大家。
通过RSEM我们获取了样本中每个基因的counts和表达量,接下来使用tximport校正不同样本间基因长度的差异。
Mfuzz是用来进行不同时间点转录组数据表达模式聚类分析的R包,使用起来非常方便,直接输入不同样本归一化后的counts或者FPKM及TPM值就可进行聚类。
各位科研芝士的朋友,大家好,今天我们继续分享关于TCGA数据下载的专题,如果你看完了前面所有的关于TCGA推文,那么你对TCGA将不再陌生,这个时候的你不仅学会了九阳神功,还学会了乾坤大挪移了,哈哈,看到这希望你可以继续看下去,毕竟TCGA的生活也应该充满快乐。
source("https://bioconductor.org/biocLite.R")
临床数据是一个tsv文件,数据相对比较简单, (tsv文件就是文件内部的内容使用指标付分隔)
单细胞数据分析常用到建立trajectory和pseudoTime,拟时序分析可以用 Diffusion( Destiny R package)
这里演示一下传统的RNA-seq数据的表达量分析全流程, 安装Rsubread包后会有自带的测序数据如下:
这个时候,你无需理会你的服务器的R语言版本或者R包啦,因为你每次都会 conda activate r 激活你自己的R语言环境哦。我们在这个环境里面安装了 bioconductor的 singlecelltk和singlecellsignalr,因为它们本身就会依赖大量的其它R语言包,所以理论上这个时候你的这个 conda activate r 小环境,已经是比较好的可以用来做单细胞转录组数据分析的啦!
DoRothEA是一种包含转录因子(TF)与其靶标相互作用的基因集资源。一个TF及其对应靶点的集合被定义为调节子(regulons)。DoRothEA regulons 收集了不同类型的证据,例如文献,ChIP-seq peaks,TF结合位点基序以及从基因表达推断相互作用等。
很久以前我们介绍过Sushi这个R包可以绘制基因组区域reads覆盖情况,这次我们介绍另外一个功能更强大的R包 Gviz:
但是RNA-seq的分析肯定远不止那些啦,拿到基于基因的表达矩阵固然可以根据转录组经典表达量矩阵下游分析大全 里面的R包和代码进行统计可视化,但是表达矩阵并不是凭空产生,上游分析也需要我们有一定的认知,本次我们介绍的流程就会涵盖这些知识点。(很多朋友会下意识的认为RNA-seq数据的上游分析必然是基于Linux,其实也是可以使用bioconductor的全部R包来完成的哦!)
GENIE3是一种从基因表达数据推断基因调控网络的方法。它训练预测数据集中每个基因表达的随机森林模型,并将转录因子(TF)的表达用作输入。然后使用不同的模型来得出TF的权重,测量它们各自的相关性以预测每个靶基因的表达。GENIE3的输出是一张带有调节基因,靶基因及权重的表格,它表示TF(输入基因)在预测目标中的权重。
单细胞常见的可视化方式有DimPlot,FeaturePlot ,DotPlot ,VlnPlot 和 DoHeatmap几种 ,Seurat均可以实现,但文献中的图大多会精美很多。比如
异常细胞信号会引起癌症等其他疾病,并且是常见的治疗的靶点。常可以通过基因的表达来推断某个信号通路的活性。然而,只考虑基因表达对通路的作用往往忽略了翻译后修饰的作用,并且下游信号代表非常特定的实验条件。在这里,作者提出介绍PROGENy,这是一种通过利用大量公开可用的扰动实验,来克服了这两个局限性的方法。与现有方法不同,PROGENy可以(i)恢复已知驱动基因突变的作用,(ii)提供或改善药物的marker,以及(iii)区分致癌和肿瘤抑制途径,以确保患者生存。
写此文档的缘由:在做GSEA分析时,由于研究的是非模式生物,从Broad Institue开发的MSigDB没有找到合适的预设基因集,没办法顺利进行GSEA. 但是KEGG数据库收录有目标物种。几经折腾,终于跑上了GSEA. 写此文档为其他研究非模式生物的人员提供一点借鉴。
好久不见,基因组直播又来了。这篇推送是对SNV进行一个初步探索。 单纯的一个样本来找CNV,总是不太准确的,但还是那句话,毕竟是自己的基因组,硬着头皮也要上。当然,分析的结果,我是不会拿来预测健康风险
读取array数据首先确定一下测序平台和数据系列,然后用相应的包读取基因表达芯片数据-CEL格式文件并处理成表达矩阵。 affy包(Affymetrix 平台)处理的芯片平台一般是hgu 95系列和133系列;oligo包(Affymetrix 平台)能够处理affymetrix公司的Gene ST arrays,例如[HuGene-1_1-st] Affymetrix Human Gene 1.1 ST Array;Illumina平台,则可以使用beadarray或lumi
我下意识的认为他应该是有其它错误,但是看大家在群里讨论的热火朝天, 我就去试了试。首先看了看最原始的安装方式:
maftools是一个R包,发布在bioconductor上,专门用于MAF文件中信息的可视化,链接如下
主要是因为GDC官网虽然权威,但是太复杂了,不利于初学者。而且GDC官网是针对TCGA数据库的每个癌症的每个病人的不同数据分开存放,每次都是批量下载后,整理合并的。但是我们前面的在线接口,去cbioportal或者FireBrowse都是以癌症为单位下载不同数据集。包括后面分享的:
那里的参数可以看下面这个网站https://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/query.html然后下载你要的数据
作者是生信技能树组建的表观遗传学学习小组的小组长,前面已经发过一个: 学员分享-Chip-seq 实战分析流程 本文是看到生信技能树有个450K甲基化芯片数据处理传送门,我呢,恰好不久前用一个集成度很高的ChAMP包分析过850K的甲基化芯片数据。所以,就想着把自己的笔记整理下,可以和更多的小伙伴学习交流,还有个原因可能是因为这是四月份打算学生信时,接手的第一个任务,曲曲折折好几个月才跑通流程,遇到的坑也比较多,想记录下来。 我之前分析时是参考ChAMP包的源文档,非常详细的整个流程的介绍,但是,在笔记快整
作者:Tabula Muris Consortium · 2018 · 截止到2021-06-11被引用次数:480
故而语文老师们在讲授这篇文章时,将其中心思想落脚在“人要正视缺点,切莫讳疾忌医”上。但实际上有些断章取义,作者的中心思想其实是借扁鹊阐述的医理来讲解做事的方法,即要争之于小、蚤(早)从事。
有的时候,包怎么都无法安装,可能是因为受制于网络,如github;也可能是某些玄学问题,只好将R 的源文件下载下来,自行本地安装。
每对基因基序的得分可以用不同的参数来进行。因此,我们提供多个数据库(motif-rankings),根据以下几种可能性:
使用 XENA下载的TCGA-LAML.mutect2_snv.tsv文件绘制基因词云和突变景观图。
R安装glmnet报错: C++14 standard requested but CXX14 is not defined 这时需要在~/.R下新建文件Makevars $ vim ~/.R/Makevars CXX14FLAGS=-O3 -march=native -mtune=native -fPIC CXX14=g++ 然后再安装就ok, 安装过程会打印很多log install.packages('glmnet', ask=F, update=F) ... installing to /opt/R
领取专属 10元无门槛券
手把手带您无忧上云