首页
学习
活动
专区
圈层
工具
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

「R」UCSCXenaShiny:基于 R 的 Xena 数据库交互应用

❝一句话简介:一个可以用于探索、下载和简单分析 UCSC Xena data hubs 上所有数据集的 R Shiny 交互式应用。...❞ 项目地址:https://github.com/openbiox/UCSCXenaShiny[1] 可以单独作为 R 包下载和使用,目前主要开发了数据集的下载和单基因的分析功能,很多都还需要完善和增加...数据集的选择、查看和下载: ? 一些单基因分析模块:包括泛癌表达、生存分析、Cox分析等 ? 接着看下目前6位参与的开发人员,如果没有他们就没有这个工具的存在啦。 ?...目前该平台正在内测,如果你不想要安装 R 包,又想要尝试一下 UCSCXenaShiny,欢迎注册 最后,如果这个工具能够帮助到你的科研工作,记得引用一下我们的预印本: ❝Wang, S.; Xiong...UCSCXenaShiny: An R Package for Exploring and Analyzing UCSC Xena Public Datasets in Web Browser.

1.3K30
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    「R」R检验中的“数据是恆量”问题

    之前我学习和自己分析时就遇到过,尝试使用判断的方式事先检查它是不是数据存在问题(这类数据明显不服从正态分布),可以使用正态性检验,或者直接判断是不是样本组内的数据是完全一样的,如果一样就不要这个了。...所遇到的问题: 分析两个样本之间是否存在差异,每个样本三个重复。现在用的是t.test,但有些样本三个重复的值一样(比如有0,0,0或者2,2,2之类的),想问下像这种数据应该用什么检验方法呢?...以下是我的回答: 数据是恒量是无法做t检验的,因为计算公式分母为0(不懂的看下统计量t的计算公式,一般标准差/标准误为分母,所以恒量是不能算的)。...,如果出问题,返回相应的NA,这样我们可以算完后再检查数据。...9508518/why-are-these-numbers-not-equal https://stackoverflow.com/questions/23093095/t-test-failed-in-r

    4.8K10

    深层神经网络参数调优(五) ——超参数调试、batch归一化、softmax回归

    深度学习中,不止一个层次,因此,就引入了batch归一化,其不止对输入样本进行归一化,还对中间的每个隐藏层的输出进行归一化,并且还可以自定均值和方差。...4)当r和β的值正好等于归一化算出来的均值和方差,则此时的z和batch归一化之前的z的值是一样的。 5)这里的β,和adam、动量、RMS中的β,没有任何关系。 ?...需要特别说明的是,由于batch归一化,用参数重置了均值,因此之前一直用到的wx+b中的b,在带有batch归一化的神经网络中,可以忽略,因为其值被包含在β中,计算b是没有意义的,可以省略。...5、batch的测试方式 由于batch,每次的计算都需要用到所有数据的均值和方差,但是测试的时候,每次只有1条数据,故没法独立计算均值和方差。...4)数据集的使用 为了在深度学习中优化更快,可以将数据集拆分成子集,这就有了随机梯度下降算法和mini-batch算法。

    2.1K80

    数据挖掘

    且3σ适用于有较多组数据的时候。在正态分布中σ代表标准差,μ代表均值。x=μ即为图像的对称轴.在(μ-3σ,μ+3σ)区间内的概率很大,超出这个范围的可能性不会超过0.3%。...如果遇到x数据相同情况下,那么秩次为相同数据的平均值。 判定系数 判定系数是相关系数的平方,用r的平方表示,用来衡量回归方程对y的解释程度。...归一化处理 最小-最大规范化 它是对原始数据的线性变换,将数值映射到0-1.公式为: x^*=\frac{x-min}{max-min} 0-均值规范化(标准差标准化) 经过处理的数据的均值为0,标准差为...(data.abs().max())) 连续属性的离散化 等宽法 等频法 基于聚类的分析方法:采用k-means方法,即随机确定k个初始点作为质心,然后将数据集集中的每个点分配到簇中。...属性规约的目的是寻找出最小的属性子集并确保新数据子集的概率分布尽可能的接近原来数据集的概率分布。

    1.6K50

    《美团机器学习实践》第二章 特征工程

    数据和特征决定了机器学习的上限,而模型和算法只是无限逼近这个上限而已。 基于大量数据的简单模型胜于基于少量数据的复杂模型;更多的数据胜于聪明的算法,而好的数据胜于多的数据。...数值特征(定量数据) 主要考虑因素:==大小和分布== 对于目标变量为输入特征的光滑函数的模型,如线性回归、逻辑回归,其输入特征的大小很敏感,因此,使用光滑函数建模时,有必要对输入进行归一化。...对于基于树的模型,如随机森林,梯度提升树等,对输入特征的大小不敏感,输入不需要归一化。...最大最小值缩放 最大绝对值缩放 基于某种范数的归一化 平方根缩放或对数缩放:方差的稳定变换 对有异常点的数据可采用健壮的缩放,如中位数、分位数 缺失值处理。...封装方法是特征子集搜索和评估指标相结合的方法,前者提供候选的新特征子集,后者则基于新特征子集训练一个模型,并用验证集进行评估,为每一组特征子集进行打分。

    68030

    R语言在数据科学中的应用

    功能介绍 大数据时代,我们需要一个强大的软件Runing!!!R语言出现了!!!这里是R语言最好的学习交流平台,包括R语言书籍,R语言课程,R语言程序包使用,教你获取数据,处理数据,做出决策!!...通常是指西药,主要是基于化合物的药 药物的研发阶段主要研究药物作用到人体后的各种反应 中药是很复杂的混合物,研究的难度比较高药的市场 整个制药行业,每年的销售额大约为 6 万亿元 每年新药研发花费的成本约为...1 万亿元 每款能成功面市的新药的平均研发时间是 12 年 平均每款药物的研发成本约为 50 亿元 实验室中筛选的化合物只有大约 1/1000 能够进入到人体试验阶段 ?...知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、...专注大数据行业人才的培养。每日一课,大数据(EXCEL、SAS、SPSS、Hadoop、CDA)视频课程。大数据资讯,每日分享!数据咖—PPV课数据爱好者俱乐部!

    1.5K50

    特征工程

    常用的插补方法 均值插补 同类均值插补 众数插补 建模预测:利用机器学习算法对数据集的缺失值进行预测 高维映射:将属性映射到高维空间,采用独热编码技术,将包含K个离散取值范围的属性值扩展为...归一化和单位化比较像。 注意标准化与归一化的区别: 简单来说,标准化是依照特征矩阵的列处理数据,其通过求 z-score 的方法,将样本的特征值转换到同一量纲下。...数据变换 数据变换在我看来更像是一种特征探索的过程,相当于是在已有的特征基础上探究新的可能的特征。 常见的数据变换有基于多项式的、基于指数函数的、基于对数函数的。...它的主要思想是在不同的数据子集和特征子集上运行特征选择算法,不断的重复,最终汇总特征选择结果,比如可以统计某个特征被认为是重要特征的频率(被选为重要特征的次数除以它所在的子集被测试的次数)。...PCA通过线性变换,将N维空间的原始数据变换到一个较低的R维空间(R<N),达到降维目的。 在降维过程中,不可避免的要造成信息损失。如原来在高维空间可分的点,在低维空间可能变成一个点,变得不可分。

    1.1K20

    面试腾讯,基础考察太细致。。。

    在k折交叉验证中,数据集被均匀分成k个子集,每次使用其中一个子集作为验证集,剩余的k-1个子集作为训练集,重复k次,每次选取不同的验证集。...对于每个子集i,将其作为验证集,其余k-1个子集作为训练集。 使用训练集训练模型,并在验证集上进行评估。 计算模型在所有验证集上的性能指标的平均值,作为模型的最终性能评估。...:") print(df_filled) print("\n删除缺失值后的数据集:") print(df_dropped) 上面代码中,使用Pandas库中的fillna方法将缺失值填充为均值,并使用...在实际应用中,特征选择的方法需要根据具体的数据集和机器学习任务进行选择。有时候需要尝试多种方法来确定最佳的特征子集。...归一化适用于那些特征的取值范围不相同,但又需要保留原始数据分布和稀疏性的情况,例如图像像素的处理。 在实际应用中,可以根据数据的分布情况和模型的需求选择合适的特征缩放方法。

    12210

    数据处理中的标准化、归一化,究竟是什么?

    原文链接:数据处理中的标准化、归一化,究竟是什么? 大家好,我是小一 今天说一个比较重要的内容,无论是在算法建模还是在数据分析都比较常见:数据归一化和标准化。...代码实现 常用的特征无量纲化方法都已经在 sklearn 中实现,可以直接调用,一般都是在基于 sklearn 下的 preprocessing 模块。...数据标准化是指当数据 x 按均值 μ 中心化后,再按标准差 σ 缩放,数据就会服从均值为 0,方差为 1 的标准正态分布,这个过程就叫做数据标准化。...而标准化 Standardization 之后的数据没有严格的区间,变化之后的数据没有范围,只是数据整体的均值为 0,标准差为 1 另外,归一化缩放的比例仅仅和极值有关,而标准化缩放的比例和整体数据集有关...作者:xiaoyi 文章首发:公众号【小一的学习笔记】 未经允许禁止转载,需要转载请微信联系授权(微信号:zhiqiuxiaoyi) 原文链接:数据处理中的标准化、归一化,究竟是什么?

    6.2K52

    从零到一构建AI项目实战教程第三篇:数据处理与预处理

    在人工智能项目中,数据是模型的“食粮”,其质量和处理方式直接决定了最终模型的性能。数据处理与预处理阶段是整个项目流程中至关重要的一环,它涉及数据的收集、清洗、转换、特征提取和归一化等一系列操作。...二、数据清洗缺失值处理:检查数据中的缺失值,根据具体情况选择填充(如均值、中位数、众数填充)、插值(如线性插值、多项式插值)或删除缺失值。...特征缩放:对数值特征进行缩放,以消除不同特征之间的量纲差异。常用的缩放方法包括标准化(将特征值转换为均值为0、标准差为1的分布)、归一化(将特征值转换为0到1之间的范围)等。...四、数据归一化与标准化归一化:将数据缩放到一个小的特定区间,通常是0到1之间。这有助于保持模型训练时的稳定性,特别是在使用基于距离的算法(如KNN、SVM)时。...将数据集划分为K个子集,每次选择K-1个子集作为训练集,剩余一个子集作为验证集,重复K次,取平均性能作为最终结果。

    21110

    深入浅出聚类算法

    导言 聚类问题是机器学习中无监督学习的典型代表,在数据分析、模式识别的很多实际问题 中得到了应用。...基于质心的聚类 基于质心的聚类算法计算每个簇的中心向量,以此为依据来确定每个样本所属的类别,典型的代表是k均值算法。 k均值算法是一种被广泛用于实际问题的聚类算法。它将样本划分成个类,参数由人工设定。...k均值算法有多种改进版本,包括模糊c均值聚类,用三角不等式加速等。 基于概率分布的聚类 基于概率分布的聚类算法假设每个簇的样本服从相同的概率分布,这是一种生成模型。...基于图的聚类 基于图的算法把样本数据看作图的顶点,根据数据点之间的距离构造边,形成带权重的图。通过图的切割实现聚类,即将图切分成多个子图,这些子图就是对应的簇。这类算法的典型代表是谱聚类算法。...第一种方法是用图的顶点数进行归一化,由此得到优化的目标为: ? 其中|Vi|为子集的元素数量。最后归结为求解矩阵的特征值和特征向量问题。另外一种方案也采用了归一化项: ?

    79510

    《百面机器学习》读书笔记之:特征工程 & 模型评估

    最常用的归一化方法有以下两种: 线性函数归一化:对原始数据进行线性变换,将结果映射到 [0, 1] 的范围 零均值归一化:将原始数据映射到均值为 0,标准差为 1 的分布上 在实际应用中,通过梯度下降法求解的模型通常是需要归一化的...处理方法大致可以分为三类,一是基于模型的方法,采用措施来降低过拟合风险,包括简化模型、添加正则项、集成学习、Dropout 超参数等;二是基于数据的方法,对原始数据进行适当变换以达到扩充数据集的效果;三是进行迁移学习...基于这个特点,ROC 曲线能够尽量降低不同测试集带来的干扰,更加客观地衡量模型本身的性能。而 P-R 曲线则能更直观地反映模型在特定数据集上的表现。...调整余弦相似度通过将每个维度上的数值减去其所有维度上的均值,达到消除维度间差异的目的: 在推荐领域另一个常用的度量指标为皮尔逊相关系数,其与调整余弦相似度非常接近,区别在于其减去的均值基于两个用户共同评分的项目...将全部样本划分成 k 个大小相等的样本子集;依次遍历这 k 个子集,每次把当前子集作为验证集,其余所有子集作为训练集,进行模型的训练和评估;最后把 k 次评估指标的平均值作为最终的评估指标。

    1.6K20
    领券