基于SD和mean创建具有高、中、低水平的新分类变量_基于数据框中的分类变量的平均值和Sd的函数_使用mutate创建新变量，其中column具有一个基于整洁tibble中的条件的变量 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

生信代码：数据处理（ tidyverse包）

1 mutate() mutate（）与基础函数transform（）相似，都可以添加新的一列，但是允许引用刚刚创建的列： mydata <- tibble(x1=c(2,2,6,4),...： df %>% filter(type=="english")%>% summarize( mean_english==mean(score) sd_english...=sd(score) ) ##summarize返回的是一个新的数据框，如果后续要使用到，需要保存下来 5 arrange() R base包中涉及到排序的包括 sort()，rank...()，order()，而在dplyr包中与排序相关的是arrange()包，默认是从高到低进行排序，如果变换排序顺序则可以使用-(变量)或者desc(变量)。...df %>% group_by(name) %>% summarise( mean_score = mean(newscore), sd_score = sd(newscore

2K1 0

高斯朴素贝叶斯分类的原理解释和手写代码实现

Gaussian Naive Bayes (GNB) 是一种基于概率方法和高斯分布的机器学习的分类技术。朴素贝叶斯假设每个参数（也称为特征或预测变量）具有预测输出变量的独立能力。...所有参数的预测组合是最终预测，它返回因变量被分类到每个组中的概率，最后的分类被分配给概率较高的分组（类）。什么是高斯分布？...高斯分布也称为正态分布，是描述自然界中连续随机变量的统计分布的统计模型。正态分布由其钟形曲线定义，正态分布中两个最重要的特征是均值 (μ) 和标准差 (σ)。...正态分布的数学公式定义了一个观测值出现在某个群体中的概率：我们可以创建一个函数来计算这个概率： def normal_dist(x , mean , sd): prob_density =...首先创建 X 和 y 变量，并执行训练和测试拆分： #Creating X and y:X = df.drop('dx', axis=1)y = df['dx'] #Data split into train

1.3K4 0

您找到你想要的搜索结果了吗？

是的

没有找到

高斯朴素贝叶斯分类的原理解释和手写代码实现

Gaussian Naive Bayes (GNB) 是一种基于概率方法和高斯分布的机器学习的分类技术。朴素贝叶斯假设每个参数（也称为特征或预测变量）具有预测输出变量的独立能力。...所有参数的预测组合是最终预测，它返回因变量被分类到每个组中的概率，最后的分类被分配给概率较高的分组（类）。什么是高斯分布？高斯分布也称为正态分布，是描述自然界中连续随机变量的统计分布的统计模型。...正态分布由其钟形曲线定义，正态分布中两个最重要的特征是均值 (μ) 和标准差 (σ)。平均值是分布的平均值，标准差是分布在平均值周围的“宽度”。...正态分布的数学公式定义了一个观测值出现在某个群体中的概率：我们可以创建一个函数来计算这个概率: def normal_dist(x , mean , sd): prob_density...首先创建 X 和 y 变量，并执行训练和测试拆分： #Creating X and y: X = df.drop('dx', axis=1) y = df['dx'] #Data split into

7303 0

主成分分析PCA谱分解、奇异值分解SVD预测分析运动员表现数据和降维可视化

您将学习如何使用 PCA_预测_ 新的个体和变量坐标。我们还将提供 _PCA 结果_背后的理论。...可视化创建基于 ggplot2 的优雅可视化。...显示每个主成分解释的方差百分比。具有相似特征的个人被归为一组。 viz(res ) 变量图。正相关变量指向图的同一侧。负相关变量指向图表的相反两侧。...预测个人数据：第 24 到 27 行和第 1 到 10 列。新数据必须包含与用于计算 PCA 的活动数据具有相同名称和顺序的列（变量）。...两步：计算每个个体与 PCA 重心之间的平方距离：d2 = [(var1\_ind\_i - mean\_var1)/sd\_var1]^2 + …+ [(var10\_ind\_i - mean\_

1.1K4 0

R语言中回归和分类模型选择的性能指标

例如，假设一个预测任务与估计卡车的重量有关，而另一项与估计苹果的重量有关。然后，在第一个任务中，好的模型可能具有100 kg的RMSE，而在第二个任务中，好的模型可能具有0.5 kg的RMSE。...在离散设置中，可以将其计算为这意味着，如果预测和结果与平均值的偏差相似，则它们的协方差将为正；如果与平均值具有相对的偏差，则它们之间的协方差将为负。...关联：协方差和标准差为了更好地理解协方差，我们创建了一个绘制测量值与均值偏差的函数： plot.mean.deviation <- function(y, y.hat, label) { means...由于协方差取决于数据的散布，因此具有高标准偏差的两个变量之间的绝对协方差通常高于具有低方差的变量之间的绝对协方差。...例如，考虑具有指数分布的数据： plot(x,y) 让我们为基于这些数据的线性模型计算R 2： ## [1] 0.9 如我们所见，R平方非常高。

1.5K0 0

「R」Shiny：响应式编程（三）响应表达式

通过简化响应图可以让人更容易理解应用响应表达式同时具有输入控件和输出控件的味道：像输入控件，读者可以在输出控件中使用响应表达式的结果。...但 Shiny 会把它们看作一个整体，只要更新输入中的任意一个，x1 和 x2 都要更新。因此，响应图如下： ? 我们注意到这个图非常稠密：几乎每个输入都跟每个输出直接连接到了一起。...该应用还有一个重要的问题：直方图和 t 检验使用的是不同的随机数据。这个操作非常具有误导性，因为我们应当使用完全一致的数据进行工作。幸运地是，我们可以通过响应表达式减少重复计算并解决问题。...简化响应图在下面的 server 函数中我们重构已有的代码为 2 个新的响应表达式 x1 和 x2。要创建一个响应表达式，我们调用 reactive() 并将结果赋值给一个变量。...模块化的响应图为什么我们需要响应表达式因为通过创建变量和函数的方式减少重复在 Shiny 中是不工作的。

1.5K4 0

R语言基于树的方法：决策树，随机森林，套袋Bagging，增强树

p=9859 概观本文是有关基于树的回归和分类方法的。用于分割预测变量空间的分割规则可以汇总在树中，因此通常称为决策树方法。...找到最能分隔响应变量的变量/拆分，从而产生最低的RSS。将数据分为两个在第一个标识的节点上的叶子。在每片叶子中，找到分隔结果的最佳变量/分割。目标是找到最小化RSS的区域数。...相反，如果我们在特征和y之间具有复杂的，高度非线性的关系，则决策树可能会胜过传统方法。优点/缺点优点：树比线性回归更容易解释。更紧密地反映了人类的决策。易于以图形方式显示。...可以处理没有伪变量的定性预测变量。缺点：树木通常不具有与传统方法相同的预测准确性，但是，诸如套袋，随机森林和增强等方法可以提高性能。...额外的例子树结构中实际使用的变量：[1]“价格”“ CompPrice”“年龄”“收入”“ ShelveLoc” [6]“广告”终端节点数：19残差平均偏差：0.414 = 92/222错误分类错误率

1.1K0 0

Cerebral Cortex：男女性别差异的大脑形态学标记物

使用FreeSurfer的自动处理流程对皮质表面进行重建，从T1像创建形态测量和图像强度测量。皮质灰质和底层白质体素的标签根据基于表面的非线性配准到Destrieux图谱，基于该图谱提取ROI。...为了确保分类不会因内化和外化严重程度的差异而产生偏差，使用线性SVC程序对原始数据集的三个三元组进行测试：将报告的内化和外化行为分为低、中、高三个水平（内化+外化原始分数；低：0–3，中：3–10，高：...每个特征在95%置信区间外的平均观测权重（Bonferroni校正：n = 1057；mean4.069SD）是成功分类的重要因素。 ...所有特征的分类准确率按照内化和外化行为的严重程度划分后，其结果大多保持不变，并且使用线性SVC对三个组测试得到分类准确率相似（低= 82.9±1.4%，中= 83.3±1.4%，高= 82.4±1.5%...数据结构很重要：通过线性分离数据的可能性，本文使用的模型较其他非线性方法更具解释性，同时可以使用高维SVC检测基于这些特征分类的非线性依赖性。实际上，本文所用的SVC方法的性能相当于一个参数化模型。

3570 0

深度解读｜如何构建用户分级体系实现精细化运营？附案例实操

1.1 因子分析因子分析是将多个实测变量转换为少数几个综合指标（或称潜变量），它反映一种降维的思想。通过降维将相关性高的变量聚在一起，从而减少需要分析的变量的数量，而减少问题分析的复杂性。...因子分析的前提是具有一定的相关性，因此必须通过了kmo和bartlett球形度检验的数据才能进行因子分析。...在聚类树中，不同类别的原始数据点是树的最低层，树的顶层是一个聚类的根节点。创建聚类树有自下而上合并和自上而下分裂两种方法。...，其次是中端享受型客户和高端享受型客户，而低端居家型客户和中端自信型客户在资源不足的情况下暂可放弃。...参考资产信息也可以将客户定义为高、中、低级别。定性信息的类别和方式方法，金融可以从自身业务出发，没有固定的模式。

7750 0

R语言用贝叶斯层次模型进行空间数据分析|附代码数据

在线性预测变量中包括iid高斯随机效应，将潜在随机效应添加到模型中，以解决过度分散问题。...出现空间依赖性是因为相邻区域将显示相似的目标变量值。邻接矩阵可以使用poly2nbpackage中的函数来计算邻接矩阵 spdep。...除了协变量，我们可能还需要考虑数据的空间结构。可以使用不同类型的回归模型来建模晶格数据：广义线性模型（具有空间随机效应）。空间计量经济学模型。...在此，为精度分配了带有参数\（0.01 \）和\（0.01 \）的伽玛先验值，而为空间自相关参数指定了带有参数\（1 \）和\（1 \）的beta先验值（即a区间\（（（1，1）\））中的均匀先验...探索lme4广义线性混合模型（GLMM）和线性混合模型（LMM）R语言基于copula的贝叶斯分层混合模型的诊断准确性研究R语言如何解决线性混合模型中畸形拟合(Singular fit)的问题基于R语言的

3700 0

R语言使用贝叶斯层次模型进行空间数据分析

可以通过在线性预测变量中包括iid高斯随机效应，将潜在随机效应添加到模型中，以解决过度分散问题。...出现空间依赖性是因为相邻区域将显示相似的目标变量值。邻接矩阵可以使用poly2nbpackage中的函数来计算邻接矩阵 spdep。...除了协变量，我们可能还需要考虑数据的空间结构。可以使用不同类型的回归模型来建模晶格数据：广义线性模型（具有空间随机效应）。空间计量经济学模型。...在这里，我们创建了一个具有相同名称的列表，以将所有必需的值保存在一起： #Arguments for 'slm'args.slm = list( rho.min = rho.min , rho.max...在此，为精度分配了带有参数\（0.01 \）和\（0.01 \）的伽玛先验值，而为空间自相关参数指定了带有参数\（1 \）和\（1 \）的beta先验值（即a间隔\（（（1，1）\））中的均匀先验

1.4K1 0

聚类(三):KNN算法(R语言)

下图为从网上截取的图片，可以直观看到与点x最临近的5个点里，有4个为红色圆点，因此将点x的类别判断为红色圆点一类。 ? R语言实现在R中实现knn聚类，可以使用class包中点knn()函数。...在下面的例子中，我们使用UCI的[乳腺癌特征数据集]进行演示。...') 因为有的变量取值大，有的变量取值小，所以我们在使用knn进行分类前，要先对数据通过归一化来进行无量纲处理。...选取两个变量作为横纵坐标进行画图，观察实际类别与预测的分类结果。...从检测结果和图上都可以看出，分类结果基本与真实结果一致。 ? KNN优缺点优点：（1）算法原理简单，无需估计参数和训练。（2）适合稀有事件的分类问题。

3K7 0

R语言用贝叶斯层次模型进行空间数据分析|附代码数据

可以通过在线性预测变量中包括iid高斯随机效应，将潜在随机效应添加到模型中，以解决过度分散问题。...出现空间依赖性是因为相邻区域将显示相似的目标变量值。邻接矩阵可以使用poly2nbpackage中的函数来计算邻接矩阵 spdep。...除了协变量，我们可能还需要考虑数据的空间结构。可以使用不同类型的回归模型来建模晶格数据：广义线性模型（具有空间随机效应）。空间计量经济学模型。...在这里，我们创建了一个具有相同名称的列表，以将所有必需的值保存在一起： #Arguments for 'slm' args.slm = list( rho.min = rho.min , ...在此，为精度分配了带有参数\（0.01 \）和\（0.01 \）的伽玛先验值，而为空间自相关参数指定了带有参数\（1 \）和\（1 \）的beta先验值（即a区间\（（（1，1）\））中的均匀先验

3446 0

R语言贝叶斯广义线性混合（多层次水平嵌套）模型GLMM、逻辑回归分析教育留级影响因素数据|附代码数据

p=24203 本教程使用R介绍了具有非信息先验的贝叶斯 GLM（广义线性模型）。当前教程特别关注贝叶斯逻辑回归在二元结果和计数/比例结果场景中的使用，以及模型评估的相应方法。...每个密度中的深蓝色线表示点估计，而浅蓝色区域表示 95% 的可信区间。我们可以很容易地看到， SEX 和 PPED 都是有意义的预测变量，因为它们的置信区间不包含零，并且它们的密度具有非常窄的形状。 ...值 0.50 表示模型的分类效果并不比机会好。使用正确分类率的一个替代方法是曲线下面积（AUC）测量。AUC衡量的是分辨力，即测试对因变量进行正确分类的能力。在目前的数据中，目标因变量是留级。...现在让我们看看随机效应项 ( sd(Intercept), sd(SEX) 和 sd(PPED))。图中的密度 sd(Intercept) 明显远离零，表明在模型中包含此随机截距项的相关性。...##分类变量：SEX和PPED exp(fif(BeoMiF)[-4,-2]) ##连续的变量：MSESC exp(fxf(BelFl)[4,-2]*sd(ul(i_o )) 我们可以看到，SEX

1.5K3 0

R语言使用贝叶斯层次模型进行空间数据分析

可以通过在线性预测变量中包括iid高斯随机效应，将潜在随机效应添加到模型中，以解决过度分散问题。...出现空间依赖性是因为相邻区域将显示相似的目标变量值。邻接矩阵可以使用poly2nbpackage中的函数来计算邻接矩阵 spdep。...除了协变量，我们可能还需要考虑数据的空间结构。可以使用不同类型的回归模型来建模晶格数据：广义线性模型（具有空间随机效应）。空间计量经济学模型。...在这里，我们创建了一个具有相同名称的列表，以将所有必需的值保存在一起： #Arguments for 'slm' args.slm = list( rho.min = rho.min ,...在此，为精度分配了带有参数\（0.01 \）和\（0.01 \）的伽玛先验值，而为空间自相关参数指定了带有参数\（1 \）和\（1 \）的beta先验值（即a区间\（（（1，1）\））中的均匀先验

7312 0

R语言用贝叶斯层次模型进行空间数据分析|附代码数据

可以通过在线性预测变量中包括iid高斯随机效应，将潜在随机效应添加到模型中，以解决过度分散问题。...出现空间依赖性是因为相邻区域将显示相似的目标变量值。邻接矩阵可以使用poly2nbpackage中的函数来计算邻接矩阵 spdep。...除了协变量，我们可能还需要考虑数据的空间结构。可以使用不同类型的回归模型来建模晶格数据：广义线性模型（具有空间随机效应）。空间计量经济学模型。...在这里，我们创建了一个具有相同名称的列表，以将所有必需的值保存在一起： #Arguments for 'slm' args.slm = list( rho.min = rho.min , ...在此，为精度分配了带有参数\（0.01 \）和\（0.01 \）的伽玛先验值，而为空间自相关参数指定了带有参数\（1 \）和\（1 \）的beta先验值（即a区间\（（（1，1）\））中的均匀先验

2980 0

使用贝叶斯层次模型进行空间数据分析

可以通过在线性预测变量中包括iid高斯随机效应，将潜在随机效应添加到模型中，以解决过度分散问题。...出现空间依赖性是因为相邻区域将显示相似的目标变量值。邻接矩阵可以使用poly2nbpackage中的函数来计算邻接矩阵 spdep。...除了协变量，我们可能还需要考虑数据的空间结构。可以使用不同类型的回归模型来建模晶格数据：广义线性模型（具有空间随机效应）。空间计量经济学模型。...在这里，我们创建了一个具有相同名称的列表，以将所有必需的值保存在一起： #Arguments for 'slm' args.slm = list( rho.min = rho.min ,...在此，为精度分配了带有参数\（0.01 \）和\（0.01 \）的伽玛先验值，而为空间自相关参数指定了带有参数\（1 \）和\（1 \）的beta先验值（即a区间\（（（1，1）\））中的均匀先验

8042 0

R语言用贝叶斯层次模型进行空间数据分析|附代码数据

可以通过在线性预测变量中包括iid高斯随机效应，将潜在随机效应添加到模型中，以解决过度分散问题。...出现空间依赖性是因为相邻区域将显示相似的目标变量值。邻接矩阵可以使用poly2nbpackage中的函数来计算邻接矩阵 spdep。...除了协变量，我们可能还需要考虑数据的空间结构。可以使用不同类型的回归模型来建模晶格数据：广义线性模型（具有空间随机效应）。空间计量经济学模型。...在这里，我们创建了一个具有相同名称的列表，以将所有必需的值保存在一起： #Arguments for 'slm' args.slm = list( rho.min = rho.min , ...在此，为精度分配了带有参数\（0.01 \）和\（0.01 \）的伽玛先验值，而为空间自相关参数指定了带有参数\（1 \）和\（1 \）的beta先验值（即a区间\（（（1，1）\））中的均匀先验

2832 0

R语言贝叶斯广义线性混合（多层次水平嵌套）模型GLMM、逻辑回归分析教育留级影响因素数据

p=24203 本教程使用R介绍了具有非信息先验的贝叶斯 GLM（广义线性模型）。当前教程特别关注贝叶斯逻辑回归在二元结果和计数/比例结果场景中的使用，以及模型评估的相应方法。...每个密度中的深蓝色线表示点估计，而浅蓝色区域表示 95% 的可信区间。我们可以很容易地看到， SEX 和 PPED 都是有意义的预测变量，因为它们的置信区间不包含零，并且它们的密度具有非常窄的形状。...值 0.50 表示模型的分类效果并不比机会好。使用正确分类率的一个替代方法是曲线下面积（AUC）测量。AUC衡量的是分辨力，即测试对因变量进行正确分类的能力。在目前的数据中，目标因变量是留级。...现在让我们看看随机效应项 ( sd(Intercept), sd(SEX) 和 sd(PPED))。图中的密度 sd(Intercept) 明显远离零，表明在模型中包含此随机截距项的相关性。...##分类变量：SEX和PPED exp(fif(BeoMiF)\[-4,-2\]) ##连续的变量：MSESC exp(fxf(BelFl)\[4,-2\]*sd(ul(i_o )) 我们可以看到

2.6K2 0

手把手教你绘制临床三线表

R帮助中搜索pbc查看），直接install和library即可 ?...4.创建三线表 ? 创建table one的函数非常简单，CreatTableOne()函数只需要指出需描述的变量（即前面的vars变量列表），strata参数说明按照trt变量分层即可。...可以发现计量数据都是用“(mean (sd))”描述，分类变量用“ (%) ”表示，而且还神奇的算出了P值。...默认情况下，tableone使用正态分布方法分析资料，因此会出现“(mean (sd))”的描述，但是像本例中的临床生化指标，属于偏态分布，用“(mean (sd))”描述是错误的，我们需要进一步矫正。...同时用cramVars参数可以显示两个水平的分类变量构成比，smd参数为显示standardized mean differences。 ?

2.2K0 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭