首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

利用pandas进行数据分析(三):缺失值处理

在实际的数据处理过程中,数据缺失是一种再平常不过的现象了。缺失值的存在极大的影响了我们数据分析结果的可靠性,以至于在数据建模前我们必须对缺失值进行处理。实际的缺失值处理主要包括两个部分:即识别数据集中的缺失值和如何处理缺失。 相较于,在数据缺失处理方面提供了大量的函数和包,但未免有些冗余。而中的缺失处理则显得高效精炼。在中,不必去计较你的数据集中的缺失到底是随机缺失还是非随机缺失,你只需要用函数将缺失识别出来然后视数据集大小决定是删除还是插补就可以了。 缺失值的识别 作为最初的设计目标之一,尽可能简单的处理

010

Nucleic Acids Res. | 一种灵活的、可解释的、精确的插补未测量基因表达的方法

今天给大家介绍密歇根州立大学Arjun Krishnan教授等人发表在Nucleic Acids Research上的一篇文章 “A flexible, interpretable, and accurate approach for imputing the expression of unmeasured genes”。虽然生物学领域中有超过200万个公开可用的人类微阵列基因表达谱,但这些谱是通过各种平台进行测量的,每个平台都覆盖一组预先定义的、有限的基因。因此,重新分析和整合这一海量数据收集的关键是通过插补未测量基因的表达,在部分测量的微阵列样品中重组整个转录组的方法。目前最先进的插补方法是针对特定平台的样本进行定制的,并依赖于基因-基因关系,不考虑目标样本的生物学背景。本文表明,为每个新的目标样本实时构建的捕获样本-样本关系 (称为样本弹性) 的稀疏回归模型,优于基于固定基因关系的模型。基于三种机器学习算法 (LASSO、k近邻和深度神经网络)、两个基因子集 (GPL96-570和LINCS) 和多个插补任务 (微阵列/RNA-seq数据集内和跨数据集) 的广泛评估表明SampleLASSO是最精确的模型。此外,本文证明了该方法的生物学可解释性:为了插补来自特定组织的一个目标样本,SampleLASSO自动利用了来自同一组织的训练样本。因此,SampleLASSO是一种简单,但强大而灵活的协调大规模基因表达数据的方法。

01

Genome Biology | DeepImpute:一种基于深度神经网络来插补单细胞RNA测序数据的方法

今天给大家介绍密歇根大学的Lana X. Garmire教授等人发表在Genome Biology上的一篇文章 “DeepImpute: an accurate, fast, and scalable deep neural network method to impute single-cell RNA-seq data” 。单细胞RNA测序 (scRNA-seq) 为同时研究数万个单细胞的基因表达提供了新的机遇。本文提出了DeepImpute,一个基于深度神经网络的插补算法,它使用dropout层和损失函数来学习数据中的分布模式从而精确地插补缺失数据。总的来说,通过均方误差或皮尔逊相关系数衡量,DeepImpute比其他六种公开可用的插补方法精度更高。实验表明,DeepImpute是一个准确、快速、可扩展的插补工具,适合处理数量不断增长的scRNA-seq数据。

01

Bioinformatics | scTSSR:使用双向稀疏自表示来恢复单细胞RNA测序的基因表达

今天给大家介绍华中师范大学的张晓飞教授等人发表在Bioinformatics上的一篇文章“scTSSR: gene expression recovery for single-cell RNA sequencing using two-side sparse self-representation”。单细胞RNA测序 (scRNA-seq) 方法可以在单细胞层面揭示基因表达模式。由于技术缺陷,在scRNA-seq中的“dropout”事件会给基因表达矩阵增加噪声,阻碍下游分析。因此,在进行下游分析之前,恢复真实基因表达水平是很重要的。本文开发了一种称为scTSSR (scRNA-seq two-side sparse self-representation) 的插补方法来恢复scRNA-seq的基因表达。与大多数现有方法不同的是,scTSSR使用双向稀疏自表示模型并且同时利用来自相似基因和相似细胞的信息。本文还进一步利用实验证明scTSSR可以有效地捕获在单分子RNA荧光原位杂交 (smRNA FISH) 中观察到的基因的Gini系数和基因-基因的相关性。下游分析实验表明,scTSSR在恢复真实基因表达水平方面优于现有的方法。

01
领券