首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

单细胞转录组高级分析二:转录调控网络分析

组织内细胞异质性的基础是细胞转录状态的差异,转录状态的特异性又是由转录因子主导的基因调控网络(GRNs)决定并维持稳定的。因此分析单细胞的GRNs有助于深入挖掘细胞异质性背后的生物学意义,并为疾病的诊断、治疗以及发育分化的研究提供有价值的线索。然而单细胞转录组数据具有背景噪音高、基因检出率低和表达矩阵稀疏性的特点,给传统统计学和生物信息学方法推断高质量的GRNs带来了挑战。Single-cell regulatory network inference and clustering (SCENIC)是一种专为单细胞数据开发的GRNs算法,它的创新之处在于引入了转录因子motif序列验证统计学方法推断的基因共表达网络,从而识别高可靠性的由转录因子主导的GRNs。SCENIC相关的文章2017年首先发表于nature methods,2020年又将流程整理后发表于nature protocls。需要深入了解分析原理和流程的朋友可以参考这两篇文章:

05

在不同的任务中,我应该选择哪种机器学习算法?

当开始研究数据科学时,我经常面临一个问题,那就是为我的特定问题选择最合适的算法。在本文中,我将尝试解释一些基本概念,并在不同的任务中使用不同类型的机器学习算法。在文章的最后,你将看到描述算法的主要特性的结构化概述。 首先,你应该区分机器学习任务的四种类型: 监督式学习 无监督学习 半监督学习 强化学习 监督式学习 监督式学习是指从有标签的训练数据中推断一个函数的任务。通过对标签训练集的拟合,我们希望找到最优的模型参数来预测其他对象(测试集)的未知标签。如果标签是一个实数,我们就把任务叫做“回归(regre

03

Matlab函数kmeans:K-均值聚类

K-means聚类算法采用的是将N*P的矩阵X划分为K个类,使得类内对象之间的距离最大,而类之间的距离最小。 使用方法: Idx=Kmeans(X,K) [Idx,C]=Kmeans(X,K) [Idx,C,sumD]=Kmeans(X,K) [Idx,C,sumD,D]=Kmeans(X,K) […]=Kmeans(…,’Param1’,Val1,’Param2’,Val2,…) 各输入输出参数介绍: X N*P的数据矩阵 K 表示将X划分为几类,为整数 Idx N*1的向量,存储的是每个点的聚类标号 C K*P的矩阵,存储的是K个聚类质心位置 sumD 1*K的和向量,存储的是类间所有点与该类质心点距离之和 D N*K的矩阵,存储的是每个点与所有质心的距离 […]=Kmeans(…,'Param1',Val1,'Param2',Val2,…) 这其中的参数Param1、Param2等,主要可以设置为如下: 1. ‘Distance’(距离测度) ‘sqEuclidean’ 欧式距离(默认时,采用此距离方式) ‘cityblock’ 绝度误差和,又称:L1 ‘cosine’ 针对向量 ‘correlation’  针对有时序关系的值 ‘Hamming’ 只针对二进制数据 2. ‘Start’(初始质心位置选择方法) ‘sample’ 从X中随机选取K个质心点 ‘uniform’ 根据X的分布范围均匀的随机生成K个质心 ‘cluster’ 初始聚类阶段随机选择10%的X的子样本(此方法初始使用’sample’方法) matrix 提供一K*P的矩阵,作为初始质心位置集合 3. ‘Replicates’(聚类重复次数)  整数 使用案例: data= 5.0 3.5 1.3 0.3 -1 5.5 2.6 4.4 1.2 0 6.7 3.1 5.6 2.4 1 5.0 3.3 1.4 0.2 -1 5.9 3.0 5.1 1.8 1 5.8 2.6 4.0 1.2 0 [Idx,C,sumD,D]=Kmeans(data,3,'dist','sqEuclidean','rep',4) 运行结果: Idx =      1      2      3      1      3      2 C =     5.0000    3.4000    1.3500    0.2500   -1.0000     5.6500    2.6000    4.2000    1.2000         0 6.3000    3.0500    5.3500    2.1000    1.0000 sumD =     0.0300     0.1250     0.6300 D =     0.0150   11.4525   25.5350    12.0950    0.0625    3.5550    29.6650    5.7525    0.3150     0.0150   10.7525   24.9650    21.4350    2.3925    0.3150    10.2050    0.0625    4.0850

03

Nat. Comput. Sci. | 将单细胞ATAC测序数据与基因组序列整合以辨识细胞类型

今天为大家介绍的是来自中山大学杨跃东团队的一篇论文。单细胞染色质可及性测序(scATAC-seq)技术能揭示基因调控和表观遗传异质性的单细胞分辨率细节,但由于数据的高维性和极端稀疏性,通过scATAC-seq进行细胞标注仍然具有挑战性。现有的细胞标注方法主要关注细胞峰值矩阵,并没有充分利用基因组序列。作者提出了一种名为SANGO的方法,通过整合scATAC数据中可达性峰周围的基因组序列来进行精准的单细胞标注。基因组序列的峰(peak)被编码成低维嵌入向量,然后通过一个全连接网络迭代用于重建细胞的峰值统计。学习到的权重被视为表征细胞的调控模式,并用于通过图变换网络将查询细胞与参考数据中的已标注细胞对齐,进行细胞标注。SANGO在55个配对的scATAC-seq数据集上,在样本、平台和组织持续优于其他方法。SANGO还能通过图变换学到的注意力边权重探测未知的肿瘤细胞。此外,从已标注的细胞中,作者发现了细胞类型特异性的峰,这些峰通过表达富集分析、顺式调控染色质相互作用分析和基序富集分析提供了功能性见解/生物信号。

01
领券