PyClone 是一种用于推断癌症中克隆种群结构的统计模型。 它是一种贝叶斯聚类方法,用于将深度测序的体细胞突变集分组到假定的克隆簇中,同时估计其细胞流行率(prevalences)并解释由于分段拷贝数变化(segmental copy-number changes)和正常细胞污染(normal-cell contamination)引起的等位基因失衡。 单细胞测序验证证明了 PyClone 的准确性。
图像分割是将数字图像划分互不相交的区域的过程,它可以降低图像的复杂性,从而使分析图像变得更简单
测量单个细胞中的基因活性需要破坏这些细胞以读取其内容,这使得研究动态过程和了解细胞命运决定具有挑战性。La Manno et al. (Nature, 2018)[1]引入了 RNA 速率的概念,利用新转录的未剪接的前体 mRNA 和成熟的剪接 mRNA 可以在常见的单细胞 RNA-seq 流程中区分的事实,可以恢复定向动态信息,前者可通过内含子的存在检测。这种不仅测量基因活性,而且测量它们在单个细胞中的变化(RNA 速率)的概念,开辟了研究细胞分化的新方法。最初提出的框架将速率作为观察到的剪接和未剪接 mRNA 的比率与推断的稳态的偏差。如果违反了共同剪接速率的中心假设和对具有稳态 mRNA 水平的完整剪接动力学的观察,则会出现速率估计错误。
柱状堆叠图在许多的单细胞文章中被使用,通过它可以更好向我们展示一个亚群中各个细胞的占比情况,可见它如此重要!!!今天,我们来使用R的ggplot2和python的matplotlib分别绘制柱状堆叠图。
这里记录一段时间我在互联网上看到的有意思的内容与信息,防止它们在我的脑袋里走丢了。
在机器学习和相关领域,人工神经网络的计算模型灵感正是来自生物神经网络:每个神经元与其他神经元相连,当它兴奋时,就会像相邻的神经元发送化学物质,从而改变这些神经元内的电位;如果某神经元的电位超过了一个阈值,那么它就会被激活(兴奋),向其他神经元发送化学物质。
目前该文章发表在Nature Biotechnology顶级期刊上:Visualizing Structure and Transitions in High-Dimensional Biological Data. 2019\. Nature Biotechnology.[2]
CellphoneDB介绍以及结果怎么看可以参考[https://zhuanlan.zhihu.com/p/446055519],这里就不再赘述了,直接开始跑代码。
可以看到 AnnData 具有和 dataframe 或 Array 相似的长相,同样具备相似的特性,比如切片:
许多机器学习任务的主要障碍之一是缺乏标记数据。而标记数据可能会耗费很长的时间,并且很昂贵,因此很多时候尝试使用机器学习方法来解决问题是不合理的。
来源:DeepHub IMBA本文约4000字,建议阅读10+分钟本文介绍一种对红细胞和白细胞图像分类任务的主动学习端到端工作流程。 通过细胞图像的标签对模型性能的影响,为数据设置优先级和权重。 许多机器学习任务的主要障碍之一是缺乏标记数据。而标记数据可能会耗费很长的时间,并且很昂贵,因此很多时候尝试使用机器学习方法来解决问题是不合理的。 为了解决这个问题,机器学习领域出现了一个叫做主动学习的领域。主动学习是机器学习中的一种方法,它提供了一个框架,根据模型已经看到的标记数据对未标记的数据样本进行优先排序。
这次我们来复现一篇单细胞的文章。这篇我们只来复现细胞图谱和拟时序分析 像细胞通讯,还有富集分析还是很简单的。大家可以继续走下去,然后我们来交流讨论! 这篇全篇基于python复现。
该笔记通过从内置 CellTypist 模型或用户训练的自定义模型中检索最可能的细胞类型标签来展示 scRNA-seq 查询数据的细胞类型分类。
micromamba和conda用法一样,只是速度更快,可以把micromamba换成conda,另外conda一次装十几个包是会报错的。
在单细胞转录组分析中,偶尔会出现电脑内存有限等情况,无法直接读取所有数据,这种时候可以考虑分析部分数据。
FateID是用于定量单细胞转录组数据集中细胞命运偏倚的方法,所述数据集包含从共同祖先(Herman,Sagar和 Grün2018)产生的不同细胞类型。预期祖先群体是数据集的一部分,并且FateID算法被设计用于学习每个祖细胞对一个或多个替代终端命运的预先存在的偏差。该算法的策略是应用迭代随机森林分类(Breiman 2001),以便使用在先前迭代中被分类为训练集的细胞来量化越来越年幼的祖细胞中的命运偏倚。
tangram是一种映射单细胞表达量数据到空间转录组数据的方法,它可以将单细胞中的表达量数据映射到空间转录组的每一个cell中。这对于一些gene panel数量较少的空间转录组技术如Xenium、CosMx等可以起到扩充基因数量的作用,因为tangram基因映射后的客观结果是使得每一个Xenium/CosMx数据集的细胞中的基因panel数量将和使用的单细胞数据集的panel数量保持一致,而单细胞数据集panel数量是可以轻松到2万+的。
SCALE全称是Single-Cell ATAC-seq analysis vie Latent feature Extraction, 从名字中就能知道这个软件是通过隐特征提取的方式分析单细胞ATAC-seq数据。
迭代DataFrame 迭代DataFrame - 遍历数据帧 iteritems()示例 iterrows()示例 itertuples()示例 Pandas对象之间的基本迭代的行为取决于类型。当迭代一个系列时,它被视为数组式,基本迭代产生这些值 注意: 不要尝试在迭代时修改任何对象。迭代是用于读取,迭代器返回原始对象(视图)的副本,因此更改将不会反映在原始对象上。 迭代DataFrame import pandas as pd import numpy as np N=20 df = pd.Data
请注意,本文编写于 325 天前,最后修改于 325 天前,其中某些信息可能已经过时。
距离上一次的RNN有段时间了,一方面不想写,一方面因为其他的事情被牵扯了精力,所以也就一直拖着,今天写一下LSTM,希望以一个本科生的角度能讲明白这件事。
在数据处理和分析中,经常需要对数据进行遍历和操作。Pandas是Python中用于数据处理和分析的强大库,提供了多种迭代方法来处理数据。本文将介绍Pandas中的迭代方法,并展示它们在数据处理中的应用。
scanpy 是一个用于分析单细胞转录组(single cell rna sequencing)数据的python库,文章2018发表在Genome Biology(https://genomebiology.biomedcentral.com/)。其实它的许多分析思路借鉴了以seurat为中心的R语言单细胞转录数据分析生态的,scanpy以一己之力在python生态构建了单细胞转录组数据分析框架。我相信借助python的工业应用实力,其扩展性大于R语言分析工具。当然,选择走一遍scanpy的原因,不是因为它的强大,只是因为喜欢。
答案是肯定的!在本文中,我们提出了一种灵活且低廉的方法来解决生物学问题,该方法非常适合业余科学家。我们充分利用了低成本的图像设备(FoldScope显微镜)、公共图像数据(Kaggle 数据库)和免费的数据分析工具(Kaggle Kernels)。
Pandas对象之间的底本迭代的行为取决于类型,当迭代一个Series时,它被视为数组,基本迭代产生值。DataFrame和Panel迭代对象的键。 基本迭代(对于i对象)产生:
在了解了pandas数据结构之后,我们来了解一下pandas的统计功能,数据的迭代,排序等
网上Seurat转scanpy的教程一抓一大堆,然鹅找遍全网都没找到一个靠谱的反向操作方法。唯一找到一个ReadH5AD用起来是这样的:
1写在前面 最近遇到一个大名鼎鼎的包叫Scanpy,用于单细胞测序的分析,不过需要在Python中运行。🫠 于是,我就研究了一下如何在Rstudio中调用这个神包。👀 这里和大家分享一下如何在Rstudio中调用python吧。🥰 2安装Python 2.1 方法一 你可以选择在官网直接下载安装,地址如下:https://www.python.org/downloads/ , 按照自己的操作系统下载即可。🤨 随后再配置环境。😁 📷 2.2 方法二(推荐) 我们输入以下代码,如果是从来没有进行过操作的,Rst
随着人工智能时代的到来,机器学习已成为解决问题的关键工具,如识别交易是否欺诈、预测降雨量、新闻分类、产品营销推荐。我们接下来会详细介绍机器学习如何应用到实际问题,并概括机器学习应用的一般流程。
最近看文献,发现越来越多的单细胞测序使用scanpy进行轨迹推断,可能因为scanpy可以在整体umap或者Tsne基础上绘制细胞发育路径,图片也更加美观,但是Scanpy是基于python开发的,下面整理下Scanpy官网给出的流程,按照官网流程跑一遍PBMC的数据。
RNN(循环神经网络)是一种节点定向连接成环的人工神经网络。不同于前馈神经网络,RNN 可以利用内部的记忆来处理任意时序的输入序列,即不仅学习当前时刻的信息,也会依赖之前的序列信息,所以在做语音识别、语言翻译等等有很大的优势。
在日常运行程序的过程中常常涉及到「循环迭代」过程,对于执行时间很短的程序来说倒无所谓,但对于运行过程有明显耗时的涉及「循环迭代」的程序,为其加上「进度条」(progress bar),是帮助我们监测代码执行进度以及处理中间异常错误非常实用的技巧。
在日常运行程序的过程中常常涉及到循环迭代过程,对于执行时间很短的程序来说倒无所谓,但对于运行过程有明显耗时的涉及循环迭代的程序,为其加上进度条(progress bar),是帮助我们监测代码执行进度以及处理中间异常错误非常实用的技巧。
毕竟在文章《A scalable SCENIC workflow for single-cell gene regulatory network analysis》,有这个时间消耗对比,不服不行!
笔者早先学习Python以及数据分析相关知识时,对Pandas投入了很多精力,自认掌握的还算扎实,期间也总结分享了很多Pandas相关技巧和心得(点击上方“Pandas”标签可以查看系列文章)。近日,在github中查看一些他人提交的代码时,发现了Pandas中这三个函数,在特定场景中着实好用,遂成此文以作分享。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下的问题。但生信学习不是一朝一夕就可以完成的事情,也许你可以很短时间学会一个交互式软件的操作,却不能看完程序教学视频后就直接写程序。也许你可以跟着一个测序分析流程完成操作,但不懂得背后的原理,不知道什么参数需要修改,结果可以出来,却把握不住对还是错。
计算与推断思维 一、数据科学 二、因果和实验 三、Python 编程 四、数据类型 五、表格 六、可视化 七、函数和表格 八、随机性 九、经验分布 十、假设检验 十一、估计 十二、为什么均值重要 十三、预测 十四、回归的推断 十五、分类 十六、比较两个样本 十七、更新预测 利用 Python 进行数据分析 · 第 2 版 第 1 章 准备工作 第 2 章 Python 语法基础,IPython 和 Jupyter 笔记本 第 3 章 Python 的数据结构、函数和文件 第 4 章 NumPy 基础:数
配体和受体通常在有限的空间范围内与多种复合物相互作用。考虑到这一点,作者提出了具有三个重要特征的collective optimal transport:首先,the use of non-probability mass distributions to control the marginals of the transport plan to maintain comparability between species(需要一点数学背景知识);其次,对CCC实施空间距离约束,以避免连接空间上相距较远的细胞;最后,将多种配体分布结合到多中受体分布以解释多种相互作用。
Resolving single-cell heterogeneity from hundreds of thousands of cells through sequential hybrid clustering and NMF
本文将讨论如何利用多种生物信息源,OMIC数据,以便通过深度学习实现更准确的生物系统建模。
当你的才华还撑不起你的野心时,请潜下心来,脚踏实地,跟着我们慢慢进步。不知不觉在单细胞转录组领域做知识分析也快两年了,通过文献速递这个栏目很幸运聚集了一些小伙伴携手共进,一起成长。
首先可根据表型信息(meta.data)筛选目标细胞群,常用的两个条件是器官(organ)与细胞(cell_type)类型
cuDF (Pandas GPU 平替),用于加载、连接、聚合、过滤和其他数据操作。
用于整合所有样本的体细胞突变注释结果,由\t分隔的许多列构成,开头的#为注释行,完整的MAF文件有100多列,官网有关于它的详细介绍:
领取专属 10元无门槛券
手把手带您无忧上云