展开

关键词

scanpy分析

scanpy和seurat是最常用的分析的的工具,seurat基于R,而scanpy基于python。 linux下用pip安装scanpypip install scanpy下载测试mkdir datawget http:cf.10xgenomics.comsamplescell-exp1.1.0pbmc3kpbmc3k_filtered_gene_bc_matrices.tar.gz resultsadata=sc.read_10x_mtx(datafiltered_gene_bc_matriceshg19, var_names=gene_symbols, cache=True) #读取测序文件 质控:过滤基因和sc.pp.filter_cells(adata, min_genes=200)sc.pp.filter_genes(adata, min_cells=3)adata.var = adata.var_names.str.startswith 使用标准化的进行可视化sc.pl.umap(adata, color=, use_raw=False)?

47120

URD包分析

Installing URDsource(https:raw.githubusercontent.comfarrelljaURDmasterURD-Install.R)library(URD)因为没有找到提供的测试集 ,就用之前用seurat分析过的不同时期的心脏跑一边吧。 E9.5_P21.combined@assays$RNA@counts取出表达矩阵,E9.5_P21.combined@meta.data取出之前的定义的每个的时期以及类型等信息。 1.导入library(URD)# Create an URD object, which will filter the data, then normalize and log-transform

37920
  • 广告
    关闭

    最壕十一月,敢写就有奖

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    如何读取

    注:同方法二,如果没有 “all.datatable.txt” 的文件,也可忽略此步骤。这里只是提供多种情况下的读入方法。(想尝试的话,方法一有生成 “all....

    1.3K21

    疾病相关

    对于对于测序而言,测序算是很火的一个测序技术了。简来说测序技术的,就是对每一个来进行测序。 对于测序而言,目前已经有很多文章做了其相关的检测,因此也有好多测序的已经公开了,进而也就有很多和相关的库了。 今天就给大家介绍一个和疾病相关的测序库sc2disease。相较于其他的很多分析,这个库只要还是用来分析疾病当中的和正常哪些基因有差异的。因此有这个方面需求的可以使用哈。? 背景集介绍这个库就是收集了目前已经发表的公开的测序。利用相同的流程来分析疾病和正常有没有区别。?由于目前测序的相对来说还是少。 库使用相较于其他的库,这个库的使用更像是对于分析结果的检索功能和下载功能。作者在使用相同的流程分析完目前有的了。最后就可以 获得基因在不同的疾病以及正常当中的表达情况了。

    26620

    SCmut||分析突变

    RNA测序(scRNA-seq)和DNA测序(scDNA-seq)都可以应用于水平基因组分析。对于突变分析,scDNA-seq似乎更常见。 在scRNA-seq胶质母集中,发现PDGFRA基因中的复发性水平突变与该基因中众所周知的框内缺失高度相关。 然后,结合从scRNA-seq中提取的的single-nucleotide variants (SNV),SCmut使用二维局部错误发现率(2D local fdr)方法在水平上统计检测体突变 将该方法应用于(i)两名乳腺癌患者的几个scRNA-seq集,(ii)乳腺癌系MDA-MB-231的两组,以及(iii)胶质母的一组。 在(i)中,发现的水平突变在肿瘤和非肿瘤之间被很好地分开,在(ii)中,突变被同时在两个独立的集中发现。

    22710

    该怎么利用?

    序言什么情况下,我们会用尽全身力气来分析我们的10x转录组样本呢?最有可能的场合是,我们就靠这个毕业(哈哈哈哈….)。 什么情况下,花了大量的时间和仅有的经费,一个10x的文章却只在Medicine上发表呢?(”我的课题只有一个10x样本肿么办? “)当然,我们也见识过不少只有一个10x发在CNS上,主要是方法学的研究和常见的大规模Landscape,Atlas之类的大样本文章。 课题设计这篇文章的亮点就在于并没有仅仅展示测序结果,而是一边进行测序分析一边进行大量的生物学验证。主要包括两部分:不同亚群的根尖上皮? 通过比对两种状态下10x,作者发现损伤后更多的根尖上皮进入活跃的增殖状态并且绝大多增殖形成的干直接进入成釉分化过程而较少的转化入OEE区。

    21920

    (scRNAseq)可以做GSEA吗?

    测序也可以做gsea,步骤跟用RNAseq的差不多,主要是要用到差异基因并且根Fold change来排序。 library(msigdbr)library(fgsea)library(dplyr)library(ggplot2)选择自己的物种以及要做的GSEA的库类型##查看物种的 msigdbr_show_species

    95922

    拟时序分析-destiny

    分析常用到建立trajectory和pseudoTime,拟时序分析可以用 Diffusion( Destiny R package)#Diffusion PseudoTime Analysislibrary

    99920

    scHCL || 鉴定人的类型

    library(devtools)# scHCL requires ggplot2reshape2plotlyshinyshinythemesshinyinstall_github(ggjlabscHCL)#示例

    18420

    OSCA分析笔记9—Clustering

    往往对应一种特定的类型或者轨迹状态。 如果把分群比作一个显微镜,那么我们可以根不同的放大倍(resolution分辨率),得到不同的结果。脱离于生物学背景知识,来谈论哪个分群结果是“最佳”的问题,是没有意义。 2.1 算法简介可简分为3步(1)计算所有两两间的距离(欧几里得距离),确定每个的Top K nearest neighbors(KNN);(2)根上述关系,计算(节点)两两间的相关性( 如上分别对应3个问题:选择多少个最近邻居;如何度量相关性;采用什么划分cluster的算法。2.2 scran包分群实操示例sce.pbmc #来源参考原教程 ? 参设置为每个确定10个最邻近;基于highest average rank of the shared neighbors,计算两两间的关联性;使用igraph包提供的Walktrap算法进行

    17310

    OSCA分析笔记6—Normalization

    对应原版教程第7章http:bioconductor.orgbooksreleaseOSCAoverview.html标准化是在剔除不合格之后,尽可能消除文库间大小的差异性,从而得到准确、有意义的分析结果 3.2 根外参转录本的标准化----1、背景知识1.1 为什么要标准化因为在制备文库时,排除低质量的前提下,最理想的测序结果就是每个的文库大小均相同,这样不同的相同基因水平才具有可比性 但由于客观原因(cDNA捕获、PCR复制)等技术误差的存在,间的文库大小会存在一定差异。造成的后果就是某一基因在间的表达差异就由技术误差和生物水平差异构成。从而可能导致错误的结论。 标准化这一步简来说就是消除文库大小的差异性。1.2 标准化≠批次校正标准化的前提是认为间的文库差异性完全由测序时的技术误差造成的。而这种技术误差总体是可消除的。 用一个指标(size factor)评价每一个受到的技术误差大小、方向(相对所有文库的均值,而不是绝对意义上的偏离标准文库的距离)。然后分别根每个的指标的值进行对该的标准化。

    24920

    跟着大神学分析

    前言这是 Tang Ming 大神分享的分析的seurat流程。今天我们来理一下大致的分析思路,当然里面好多节的部分还需要自己下功夫慢慢研究。 原文链接如下:https:crazyhottommy.github.ioscRNA-seq-workshop-Fall-2019scRNAseq_workshop_1.html下载我们将下载来自10x Genomics的公共 5k pbmc (外周血)集。 如果还没有安装或者安装R包有问题,可以参考下面的教程:rstudio软件无需联网但是 BiocManger无法安装R包 批量安装R包小技巧大放送读入# 读取PBMC集pbmc.data

    1.1K33

    让你的动起来!|iCellR(一)

    今天在翻阅single cell 的github时候,我看见了这个R包,允许我们处理各种来自测序技术的,如scRNA-seq,scVDJ-seq和CITE-Seq。 转录组教程汇总想看整套的学习流程还可以戳这里: https:vimeo.com337822487iCellR优点Single(i)Cell R软件包(iCellR)在分析pipeline的每个步骤提供前所未有的灵活性 可以通过无监督和有监督聚类进行分析, 此外,该工具包提供2D和3D交互式可视化(一个震撼的交互型3D可视化R包 - 可直接转ggplot2图为3D),差异表达分析,基于、基因和聚类的filter,合并 ,dropouts的标准化,插补方法,校正批次差异,找到标记基因的工具聚类和条件,预测类型和伪时序分析(NBT|45种轨迹推断方法比较,110个实际集和229个合成集)。 加载iCellR包和下载的PBMC样本。library(iCellR)my.data

    1K10

    OSCA分析笔记12—Intergrating Datasets

    笔记要点 1、的批次效应 batch effect2、评判批次效应(示例)3、两种消除批次效应的方法4、进一步评价校正批次效应的结果5、关于校正之后的表达水平的思考1、的批次效应 batch effect当一个大型测序项目涉及多个相同来源的样本时,不得不分批测序时,常常因各种各样的客观因素(操作者,实验试剂)造成不同批次间的测序结果存在一定的差异;而这种批次间的差异是系统性的表达水平差异 ;如果直接合并这些多批次的,会引入批次效应造成的表达异质性;因此,可采用特定的计算方法对来自不同批次的表达系统性差异进行校正。 (传统的Bulk RNA-seq也会涉及同一意义上的批次效应,校正方法有所异同,具体见笔记后文)2、评判批次效应(示例)2.1 示例来自TENxPBMCData包的两个批次的PBMC集#均已分别完成质控 ENSG00000243485 0.000000000 0.000000000 0.000000000 0.00000e+00 NaN NaN 为了之后的批次效应评价与校正,需要进一步处理这两个批次的测序

    15820

    OSCA分析笔记8—Dimensionality reduction

    笔记要点 1、关于降维的背景知识2、PCA降维的简理解与应用3、选择最佳PCs量的思路4、降维可视化----1、关于降维的背景知识(1)在表达矩阵中,的维度定义就是:有多少个基因表达, 根维度信息,可计算间的距离,用于分群;(2)但是对于具有成千上万个维度信息的间距离计算是十分低效的;(3)而且考虑到在的生命活动中,多个基因的表达量是高度相关的,即可以用少特征值来代表多基因的表达量 ;(4)基于上述因素,降维就是使用几十个维度的特征信息,来衡量间的距离,大大减少计算量;并且可一定程度上去除技术误差,以及对间相对位置的二维可视化提供便利。 2、PCA降维的简理解与应用(1)简理解PCA降维是针对多维复杂常用的线性降维手段可以简理解为是基于原始中心点的相同维度坐标系的重构,新的坐标系的坐标轴就称之为主成分(PC, principal 综上,对于scRNA的降维结果,选取Top主成分,在尽可能不损失异质性信息的前提下,大大降低的高维的复杂度,而且减少了技术误差的干扰。

    14720

    OSCA分析笔记14—EmptyDoublet droplet

    但在磁珠捕获的过程会出现未捕获到或者两个的异常情况。这就需要我们在分析中识别、过滤掉这些bad barcode(cell)。 1、Empty droplet1.1 关于Empty空液滴,即磁珠未捕获到,是Droplet-based测序技术的常见现象。 一般Cellranger分析得到的表达矩阵往往是过滤了Empty droplet之后的,一般只有千至上万个。 如果下载的表达矩阵里有几十万的,那么很有可能是未过滤empty droplet的原始表达矩阵。例如GSE138665集。空液滴并非没有任何基因表达。 如下实例集是一个未过滤emoty droplet的原始测序#--- loading ---#library(DropletTestFiles)raw.path

    24160

    送你20篇挖掘文章

    昨天我们提到了 两个小鼠器官图谱 , 里面介绍的2018年其实在nature和cell分布发表了小鼠器官图谱研究,表达矩阵都是可以直接下载的,浙江大学的研究有小白鼠近50种器官组织的40 人和小鼠的器官比较而且后面关于器官图谱的文章,或多或少会引用他们的,包括2019年8月发布的广西医科大学基因组与个体化医学研究中心莫曾南教授课题组的Bladders研究,如下:? 还有2018年发表在bioRxiv预印本的肺器官都是把人类器官和小鼠器官进行比较,还有Published: 21 August 2019 Conserved cell types with 但是,这样的研究还是需要有自己的,那么如果纯粹没有经费做转录组肿么办呢? ,尤其是发育生物学背景了最多的当属乳腺发育在浙江大学的40万里面:?

    78831

    seurat包分析多组对比

    40921

    大型分析解决方案

    生信技能树核心成员,天地特约撰稿人,简书创作者,科学家。为什么要做大型分析因为在呈指增长,遇到大集只是早晚的问题。 而我们关注的是分析,在科学中有哪些策略来应对大型分析呢?通常可以采用的技术有:降维降维我们并不陌生,目前已经广泛地应用到转录组的分析流程中了,如PCA。 downsample当我们明确了分析的基本位是亚群而不是的时候,在分析以及可视化的过程中应用downsample在一个亚群内随机取子集的策略就会显得很自然了。 pseudocell同样地,在某亚群内随机选取小子集做基因表达量的平均,也是一个缩减的方法。其核心依然是:保留亚群内均和亚群间差异,也即分析的基本位是亚群而不是。 本文所说大型其实只是比较多,20W+,而没有涉及到多模态的分析。同时,分析的另一个趋势:机器学习,也没有提到。这并不代表它们不重要。

    18110

    OSCA分析笔记-5 Quality control

    对应原版教程第6章 http:bioconductor.orgbooksreleaseOSCAoverview.html在分析中的第一步质控往往是剔除不合格的。 固定阈值3.2 outliner确定异常3.3 遇到batch批次效应的解决方法4 根阈值筛选4.1 可视化阈值指标4.2 核实剔除是否包含一种特定的类型4.3 剔除低质量1、为什么要质控 1.2 低质量文库的影响(1)无意义的cluster这些低质量因为“低质量的相似性”在聚类时聚成一个独的cluster,但这个cluster本身是没有任何生物意义的;反而会干扰后续的差异分析、 基于这个假设,我们可以认为根这些指标删除的是低质量。如果违反了这一假设(例如某一类的线粒体表达就是相对较高),就可能误删了部分合格的。 原因如1.1点的第一小点(2)the number of expressed gene表达基因目,即对于表达矩阵的每一列的非0值的基因目。该值越小,越有可能是低质量

    24430

    扫码关注云+社区

    领取腾讯云代金券