资料来源:《R 语言核心技术手册》和 R 文档 数据基本来自胡编乱造 和 R 文档 本文基本囊括了常用的统计检验在 R 中的实现函数和使用方法。...2 29 #> #> Residual standard error: 0.63 #> Estimated effects may be unbalanced 查看详细信息...-0.9315 -0.1001 0.782 #> rep 11.0000 7.0000 14.000 通常先用 lm() 函数对数据建立线性模型,再用 anova() 函数提取方差分析的信息更方便...variances #> #> data: wt by cyl #> Fligner-Killeen:med chi-squared = 0.5, df = 2, p-value = 0.8 尺度参数差异 R...#> #> data: RoundingTimes #> Friedman chi-squared = 11, df = 2, p-value = 0.004 最后分享一张图,帮助读者选择一个合适的统计检验
之前写过一篇博文(汇总统计?一个函数全部搞定!),介绍R中编写一个函数,进行汇总统计。效果很不错。今天用tidyverse包实现一下,多角度尝试,然后尝试中学习。 1....相关的统计参数: 最大值 最小值 极差 平均值 标准差 变异系数 2. 模拟数据 首先,我模拟一个20行5列的数据框,每一列都是数值的数据类型。...然后使用apply函数,对数据框的列进行操作 最后返回汇总统计的结果 该函数的对象为一个由变量组成的数据框,数据类型都要是数值 3.2 函数测试 > huizong(dat) Max...使用summarise_if 函数,或者summarise_all函数,计算汇总统计 使用t()进行转置 使用as.data.frame进行格式转换 func = function(x) { c(...dbl> 1 V1 99.4 2 V2 98.9 3 V3 99.3 4 V4 100. 5 V5 100. 6 V1 99.8 5.3 汇总统计
、中文编码问题及解决办法),数据连接(数据按行/列拼接、SQL数据库连接),数据重塑 (“脏”数据变“整洁”数据,长宽表转换、拆分与合并列),数据操作 (选择列、筛选行、对行排序、修改列、分组汇总)、其它数据操作...(按行汇总、窗口函数、滑窗迭代、整洁计算),以及data.table基本使用 (常用数据操作的dplyr语法与data.table语法对照)。...第四章,应用统计 R语言是专业的统计分析软件,广泛应用于统计分析与计算。...本文转自知乎「《R语言编程—基于tidyverse》新书信息汇总」——张敬信[23] 参考资料 [1] Github: https://link.zhihu.com/?...: https://zhuanlan.zhihu.com/p/346700620 [23] 知乎「《R语言编程—基于tidyverse》新书信息汇总」——张敬信: https://zhuanlan.zhihu.com
不管是大学里面的数理与统计,还是研究生阶段的生物统计学,里面都会提到t检验。 小编也给大家总结过一些统计学相关的知识 ☞统计学中数据分析方法汇总!...☞统计学知识大梳理 ☞100个统计学 & R语言学习资源网站 R语言里面也有专门做t检验的函数,t.test。...,先去掉下面两行的#,运行进行安装 #BiocManager::install("plyr") #BiocManager::install("reshape2") #加载plyr和reshape2包...add_significance("p.adj") #输出result result 这样我们就可以直接将***画在图上了,具体画图方法可以参考 ☞m6a甲基化相关基因boxplot并显示p值 参考资料: ☞统计学中数据分析方法汇总...☞统计学知识大梳理 ☞100个统计学 & R语言学习资源网站 ☞R入门教程——cookbook for R ☞R语言入门-工欲善其事必先利其器 ☞m6a甲基化相关基因boxplot并显示p值 ☞【
❝本节来介绍如何使用R语言来做统计分析,通过「rstatix」包进行统计检验,完全使用tidyverse体系进行数据清洗及可视化,使用add_pvalue,stat_pvalue_manual两个函数来自定义添加...p值 ❞ 加载R包 library(tidyverse) library(rstatix) library(ggprism) library(ggpubr) library(ggsci) 数据清洗...dose)) %>% group_by(dose) %>% summarise(value_mean=mean(len),sd=sd(len),se=sd(len)/sqrt(n())) 统计分析...❝此处通过联接原数据来定义位置信息 ❞ stat.test % t_test(data =., len ~ dose, ref.group = "0.5") %>...,并对整体进行方差分析;想对于add_pvalue而言stat_pvalue_manual的功能更加丰富,hide.ns = T移除不显著的信息 ❞ ToothGrowth %>% mutate(dose
libpath <- .libPaths() libpath r/spark/spark-1.4.0-bin-hadoop2.4/R/lib”) .libPaths...read.df(sqlContext, “/tmp/1.json”, “json”) pay.jsonmoney1 <- cast(pay.json #将数据按帐号汇总统计后排序...pay.account1 <- arrange(pay.account, desc(pay.account write.df(pay.json, “/tmp/account1”, “json”) 分组统计了...500w+的充值数据 并且排序后写成json文件到磁盘 时间是22s+,比ddply要快,4700w耗时约26s,再大的数据暂时没有统计了。...理解的很粗浅,sparkr适用于r无法统计的大批数据的预处理,可以将简单预处理的汇总数据返回给R加以建模分析。其他还有待后续深入了解。
主要优点 马赛克图能按行或按列展示多个类别的比较关系。 主要缺点 难以阅读,特别是当含有大量分段的时候。此外,我们也很难准确地对每个分段进行比较,因为它们并非沿着共同基线排列在一起。...注意 非坐标轴非均匀的马赛克图也是统计学领域标准的马赛克图,一个非均匀的马赛克图包含以下构成元素:①非均匀的分类坐标轴;②面积、颜色均有含义的矩形块;③图例。...2.数据介绍 数据构建代码来源《R数据可视化之美》,任意拟定一个数据框。...()函数使用自定义统计函数,对data.frame分组计算 dfm1 ddply(dfm, ....参考 《R数据可视化之美》
问题描述:搜集患者信息时总是需要统计患者的情况分布,或者需要探讨变量之间的关系。 ? 比如我们遇到上图的数据时,想要知道性别是否于stage有关系?...第一步:统计不同stage下,男性和女性的患者数目 代码如下: setwd('D:\\train\\data') data <- read.csv('patient.csv',header=T) data...经过这张图,我们可以初步得到的信息是:(1)T1到T4各个分期的患者总数(2)T1期男性患者的数目,T1女性患者的数目(3)其他分期男性或者女性的患者数目。...第二步:统计不同stage下,男性和女性的患者百分比 library(plyr) data ddply(data,'stage',transform,percent = 1/sum(number)...总结 这里我用了两个个小技巧,(1)首先明确ggplot2绘制堆叠条形图时,对number这一列相加,所以我将number设置为1,刚好代表每一行就是一个样本/患者(2)在计算百分比时,用了ddply函数
from em1_rater_00068_01 b where a.record_id = b.record_id)); 查看执行计划发现语句的执行计划信息真是惊人...可以看出执行计划落差很大,查看了表的统计信息,发现还是存在很大的落差,先启用并行收集统计信息。...Elapsed: 00:03:14.68 可以借着这个机会看到收集统计信息的时候,后台还是做了大量的信息计算。...如果这个时候好奇想查看收集统计信息的语句的执行计划,发现更是惊人,里面有901T的字样,绝对是海量数据。
基础 R函数和plyr plyr包中一些有用的函数 R程序 参考资料 plyr: The split-apply-combine strategy for R 不再是循环,而是向量操作,这个包的目的是简化...R函数和plyr ?...100,], vars = "id", wt_var = "g") count(baseball[1:100,], c("id", "year")) # match_df 配合count,选出符合条件的行...merge(baseball, first, by = "id", all.x = TRUE)) system.time(b3 <- join(baseball, first, by = "id")) R程序...length(year))) system.time(tapply(baseball$year,baseball$id,function(x) length(x))) 参考资料 Sean Anderson 的R教程
表示输入的数据类型(a数组 d数据框 l列表),第二个.表示输出的数据类型(_表示不输出) install.packages("plyr")library(plyr)# 按照 Species 拆分数据库,汇总一下...,然后转换结果# 到数据框ddply(iris, ....setosa 1.462#2 versicolor 4.260#3 virginica 5.552# 按照 Species 拆分数据库,汇总一下...测试序列,均值为11new.x <- rep(11, 15) + rnorm(15)# qcc 会标记出新的点qcc(x, newdata=new.x, type="xbar.one") qcc 是用于 统计质量控制的库...install.packages("reshape2")library(reshape2)# 为每一行生成唯一的ID; 这样我们可以稍后转回到宽格式iris$id <- 1:nrow(iris)iris.lng
为了更好地帮助客户进行航运业务、航线设计、港口定位等决策研究,我们使用基于R语言地理信息系统的中国航线分布可视化。...该方法利用地理信息系统的空间数据库管理功能,对中国各航线进行统计和分析,并基于R语言统计分析工具,对分析结果进行可视化处理,生成中国航线的空间分布图。...worldprt) <- c("city", "code", "lan", "lon", "att") 有453条航线无标识 table(lineinworld) summary(worldline) 统计部分国内站点的出发的航班信息...:如何、创建具有精美动画的图 2.R语言生存分析可视化分析 3.Python数据可视化-seaborn Iris鸢尾花数据 4.r语言对布丰投针(蒲丰投针)实验进行模拟和动态 5.R语言生存分析数据分析可视化案例...6.r语言数据可视化分析案例:探索brfss数据数据分析 7.R语言动态可视化:制作历史全球平均温度的累积动态折线图动画gif视频图 8.R语言高维数据的主成分pca、 t-SNE算法降维与可视化分析案例报告
最近在研究excel透视图,想到好像自己在R-分组操作并不是很流畅,顺便学习分享一下。R自带数据集比较多,今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算(操作)。...summarize 1.1 group_by语法 1.2 summarise语法 1.3 group_by和summarise单变量分组计算 1.4 group_by和summarise多变量分组计算 2 ddply...2.1 ddply语法 2.2 ddply分组计算示例 3 aggregate 3.1 aggregate语法 3.2 aggregate分组计算示例 3.3 aggregate分组计算补充(formula...summarise单变量分组计算示例 > library(dplyr) #加载dplyr包 > by_cyl 行5...语法 ddply(.data, .variables, ... ) .data为数据集 .variables分组变量一定要在“点+括号中”,例如".
Figure都是箱图的时候,肯定会觉得作者团队数据可视化能力还有待提高,如何给审稿人美好的第一印象,科研数据的可视化非常重要,相同的数据,除了箱图,我们还可以使用小提琴图或者密度分布图来展示结果,而且尽量让一些统计学结果体现在图里...,增加图可视化和信息量;(这里使用的是中位数) library(plyr) mu ddply(PlantGrowth, "group", summarise, grp.median=median(...geom_vline(data = mu, aes(xintercept = grp.median), linetype="dashed",color = "grey") 说到统计学指标...,这里墙裂推荐ggstatsplot;不用吹,看图就知道多强大了;出图的时候还顺带帮你把统计学比较做完了,真是造福百姓!...感兴趣者可以上网站好好研究一下 ::https://www.r-pkg.org/pkg/ggstatsplot library("ggstatsplot") ggbetweenstats( data
有很多初学者遇到的问题,写出来,更好的自我总结,正所谓:“学然后知不足,教然后知困”。以输出(写博客)倒逼输入(学习),被动学习, kill time,是一个不...
熟悉R的朋友都会知道, dplyr包是对原始的数据集进行清洗、整理以及变换的有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。...plyr 包中的 ddply()等函数进一步分离强化,专注接受dataframe对象, 大幅提高了速度, 并且提供了更稳健的与其它数据库对象间的接口。...dplyr包的功能主要包括: 变量筛选函数 select 筛选函数 filter 排序函数 arrange 变形(计算)函数 mutate 汇总函数 summarize 分组函数 group_by 多步操作连接符...littler命令行前端由“ r”(又称“轻量”)提供,作为围绕GNU R语言和统计计算和图形环境的轻量级二进制包装器。...尽管R可以在批处理模式下使用,但r二进制文件完全支持'shebang'样式的脚本(即在脚本的第一行中使用hash-mark-exclamation-path表达式)以及在标准Unix管道。
我就在这里等你关注,不离不弃 ——A·May R-50T-50 「序 言 」 不知不觉,已经写了半百的R语言了,感觉等数据准备这个大阶段结束,有必要将数据理解和数据准备这两阶段进行下系统的融合,然后再重新看选模型和建模型的问题...「 melt 」 了解melt melt对数据的融合,也就是ddply中对数据进行拆分,但是melt的融合是有其固定的格式与要求的,即把数据集分成标识变量、测量变量和测量值三个部分,我们要做的工作主要是根据需求选择适当的标识变量和测量变量...此外,我们在重组表数据的时候也并非完全会保留所有的变量,所以,用id.vars与mearsure.vars也是一个筛选、应用和组合变量的过程,这和ddply的作用大致相同。...同时,上述的情况也并非error,这恰恰是我们利用dcast进行计算的一个方法,如下,我们可以使用简单的sum函数,汇总不同AQI中五项指标的值。...#如图所示,我们计算出汇总不同AQI中五项指标的和。
4、R语言实现 ################################# 朴素贝叶斯分类器################################library(plyr) library...(trainData, strClassName, "nrow") dTemp ddply(dTemp, strClassName, mutate, prob = nrow/length.train...function(trainData, strClassName){ # 横表转换为纵表 data.melt 统计频数...aa ddply(data.melt, c(strClassName,"variable","value"), "nrow") # 计算概率 bb ddply(aa, c(strClassName...#prod为连乘函数 #取出类别的概率 class.all <- join(feature.prob,pc,by="class.name",type="inner") #输出结果 ddply
输入 输出矩阵 输出数据框 输出列表 不输出 数组 aaply adply alply a_ply 数据框 daply ddply dlply d_ply 列表 laply ldply llply l_ply...对于观察结果做行的随机抽样,需要使用sample函数创建一组行号的抽样结果,然后再使用索引选取这些行号所对应的行。...汇总函数 tapply与aggregate tapply函数用于向量的汇总分析,是一个非常灵活的函数。...可以设置对向量X的某个子集做汇总,也可以指定汇总函数: tapply(X, INDEX, FUN = , ..., simplify = ) 比如计算各队本垒打的总数: tapply(X=batting...## [1] NA ## -------------------------------------------------------- ## : NL ## : R ## [1] NA 另一个用于数据汇总的函数是
领取专属 10元无门槛券
手把手带您无忧上云