首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

【MATLAB 从零到进阶】day11 描述性统计

描述性统计量 均值mean 方差var标准差std 最值max/min 极差range 中位数median 分位数quantile/prctile 众数mode 变异系数std/mean...k阶原点矩 mean(score.^2) k阶中心距moment(score,k) 偏度skewness 峰度kurtosis cdfplotecdf函数函数 调用方式: cdfplot...(X) [f,x] = ecdf(y) 功能:绘制经验分布函数图 ?...hist、ecdfecdfhist函数函数 功能:hist函数,用来绘制频数直方图 ecdfecdfhist函数,用来绘制频率直方图 调用方式: % 频数直方图 hist(Y,nbins)...频数频率分布表 调用tabulate函数作频数频率分布表 tabulate函数 功能:用来作频数频率分布表 调用方式: TABLE = tabulate(x) 【例】统计数值型数组中各元素出现频数

1.5K40
您找到你想要的搜索结果了吗?
是的
没有找到

不使用直方图6个原因以及应该使用哪个图替代

在这篇文章中,我们将通过一些例子来解释为什么直方图不是可视化数据最佳选择: 它显示太依赖装箱数量。 它太依赖于变量最大值最小值。 它不能检测相关值。 它不能区分连续离散变量。...但是,如果我们查看其他直方图,则会得到完全不同图片。直方图可以得出矛盾结论。 2、它太依赖于变量最大值最小值。 即使设置了箱数,间隔也取决于变量最小最大位置。...右边图是通过缩小箱子得到,并给出了一个更清晰现实表现。但问题是,无论你如何缩小容器范围,你永远无法确定第一个容器中是否只包含0或其他一些值。 4、不能区分连续离散变量。...因此,30%样本每分钟心跳次数不超过140次。 告诉你有多少观察值“等于或低于”某一给定水平有什么意义呢?为什么不只是“平等”? 因为如果不这样做,结果将取决于变量单个值。...此外,如果你经常需要回答这样问题:“有多少人在140160之间?”或“180以上有多少?”CDP将更有用。如果你仔细想想,CDP可以立即一个答案。使用直方图是不可能

1.2K10

机器学习与R语言实战笔记(第三章)

R统计,R语言和统计是一对兄弟,相互难以离开呀! 这里记录下这本书里我之前不了解内容,欢迎一起交流!向量模式作者写了个函数来干这件事,我学习下,登上巨人肩膀。...,ecdf set.seed(3) x<- runif(n=20, min=0,max=20) y<- runif(n=20, min=0,max=20) par(new=TRUE) plot(ecdf...值 打结提示是因为有重复值,p值小于0.05,原假设不成立,自动手动档汽车mpg分布是不同。...R还为用户提供了其他假设检验方法: 1.百分比检验prop.test: 用于测试不同样本集百分比分布是否一致。...3.Bartlett检验(Bartlett.test):测试不同数据集方差是否一致 4.Kruskal-Wallis秩和检验(kruskal.test):不确定数据集是否服从正态分布前提下,判断数据集分布是否一致

1.1K20

绘制KOLMOGOROV-SMIRNOV KS检验图ECDF经验累积分布函数曲线

在样本量比较小时候,KS检验最为非参数检验在分析两组数据之间是否不同时相当常用。...Kolmogorov-Smirnov检验优点缺点 两样本K-S检验由于对两样本经验分布函数位置形状参数差异都敏感而成为比较两样本最有用且常规非参数方法之一。...绘制Kolmogorov-Smirnov检验ECDF曲线 绘制Kolmogorov-Smirnov检验ECDF曲线以及分布之间最大距离(D)一个快速R例子。...使用ggplot2基础R绘图例子 require(ggplot2) # 模拟两个分布 - 您数据放在这里!...norm(10000, 10, 5) dat <- data.frame # 创建数据 ECDF cdf1 <- ecdf cdf2 <- ecdf # 找到最小最大统计数据以在距离最大点之间画线

1.1K20

103-R茶话会18-随机数取子集是天生不和吗?

是我取子集操作出了问题吗?亦或是,sample 函数有什么魔法? 一起来探索一下吧。...用小样本继续测试 那么,会不会是我本身取子集方式出了问题呢?对小样本sample 与直接获得sample 指定种子结果,分别测试一下。...sample 改变数据框并不是随机 虽然我们设定了种子set.seed(1),可最终出结果确实离谱他奶奶离谱开门,离谱到家了。 可如果是重复这个过程呢。...,怀疑取子集有关: > my_data4[c(4,4,4),] Ozone Solar.R Wind Temp Month Day 4 18 313 11.5 62...现在可以解释为什么下标没有对应了。 也就是说,如果需要使用随机数对数据框进行取子集操作,最好还是先将随机结果赋值,防止这样意外。 那么下一个问题,数据框为什么会被改变呢?这我就不知道了。

35020

可视化绘制 | R-ggridges包峰峦图绘制

它可以用于展示拥有相同X轴变量数据(如相同时间序列)、不同Y轴离散型变量(如不同类别变量)Z轴数值变量。 本节使用峰峦图也可以很好地展示瀑布图数据信息。...最后,当calc_ecdf = TRUE时,我们还可以计算stat(ecdf),它表示该分布经验累积密度函数。我们将其概率直接映射到颜色上。...当然可以将其放在密度函数下方,通过使用position = "raincloud"参数。...可以使用ggridges提供特殊比例来设置抖动点样式。scale_discrete_manual()可用于制作具有任意形状比例图形。...对于该包其他有趣函数与可视化可参考以下资料: Introduction to ggridges[2] RDocumentation-ggridges[3] Basic ridgeline plot[4

1.5K10

R语言ggplot2绘制经验累积分布(empirical cumulative distribution)曲线简单小例子

非常有意思数据可视化案例 ,原文提出问题是 学术论文中作者数量有逐年增加趋势 ;于是利用R语言里 rplos 包抓取了 Plos 系列6本期刊2006年至2013年每篇论文里作者数量...借助ggplot2中stat_ecdf()函数实现 我们先来看一下帮助文档中例子 df_1 <- data.frame( x = c(rnorm(100, 0, 3), rnorm(100, 0...image.png 这里新学到一个函数gl(),生成因子数据,比如 gl(2, 8, labels = c("Control", "Treat")) ?...image.png 参数意思是 两种因子,每种8个,总共重复一次,因子标签是 Control Treat 之前我实现这个都是用rep()函数 再来一个例子 gl(2, 1, 20) ?...image.png 好了,今天内容就到这里了 欢迎大家关注我公众号 小明数据分析笔记本 小明数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化简单小例子;2、园艺植物相关转录组学

7K20

免疫浸润结果分子分型(一致性聚类ConsensusClusterPlus)

可以用于分子分型数据那更是五花八门啦,理论上只要你有一个数值型矩阵,都可以做分型。 今天大家演示一个根据免疫浸润结果进行分子分型示例。...分型后数据 根据分型结果提取数据,我们选2: #提取结果 sample_subtypes <- ccres[[2]][["consensusClass"]] table(sample_subtypes...免疫浸润箱线图 这个数据样本顺序ssGSEA结果样本顺序是完全一致,可以直接用,所以我们就根据这个分型,探索下不同亚型免疫浸润情况: suppressMessages(library(tidyverse...,再结合其他临床数据,我们就可以画出一个热图,综合展现不同类型样本免疫浸润情况。...estimate评估免疫纯度 我们还可以使用其他方法评价一下不同亚型免疫浸润情况,每种方法都试一下,增加可信度工作量......

83820

手把手教你绘制临床三线表

各位科研芝士小伙伴,本站本着大家提供科研便利宗旨,继续大家提供干货, 一般临床研究,统计分析就“三把斧”:统计描述、差异性比较回归建模。...R语言完美解决了统计分析“三把斧”结果整理成规范三线表麻烦。...在统计描述上,R可以根据不同数据特征给出不同统计描述方法,在差异性比较方面,R可以给出不同数据比较不同差异性比较方法,包括t、F、卡方、fisher法秩和检验;在回归分析上,不仅是Cox回归,线性回归...R帮助中搜索pbc查看),直接installlibrary即可 ?...我们按照thr分层变量,进行填充,结果如下,可以看到一个非常熟悉表格了,行分别为n(病例个数)、time、status等等需要比较变量,列为不同分组。

2.2K00

104-R茶话会19-几种查看函数源代码方法

参考: 六种方法查看R函数源代码,为啥第三种最惹人喜欢?...1-直接查看 其实非常粗暴,比如我想知道Seurat 中某个方法,直接去掉这个函数对应括号参数即可(如果加载这个包到环境中,也可以直接通过函数名获取): > Seurat::DimHeatmap...会自动调出一个编辑窗口,可以直接编辑函数并将结果赋值变量,非常适合那些需要简单修改函数: a <- edit(Seurat::as.CellDataSet) 2-泛型函数R 面向对象中还存在一类泛型函数...它们通常是这样: 这类函数会根据对象不同,调用不同函数,可以通过methods 查看: > methods(mean) [1] mean,ANY-method mean,Matrix-method...其他技巧 比如我会使用sink 函数来捕获函数输出,保存在txt 文件中便捷阅读代码。 其实这里你也可以用 参考资料 [1] 六种方法查看R函数源代码,为啥第三种最惹人喜欢?

58330

Python 离群值检测算法--ECOD

理解经验累积分布函数 为了解释 "非参数 " "参数 "这两个术语,我们需要澄清几个相关术语 "群体"、"样本 " "估计值"。统计学目标是了解我们感兴趣 "总体"。...ECDF()来推导累积分布函数 (CDF),如图 (2) 所示。...建模流程 本文提出了异常检测步骤 1、2、3 建模流程,包括模型开发、阈值确定特征评估。在步骤 1 中建立模型并分配离群值后,步骤 2 建议绘制离群值直方图以选择阈值。...我创建了一个简短函数 "descriptive_stat_threshold() "来显示基于阈值正常组异常组特征大小描述性统计。下面我简单地将阈值设为 5%。...在对HBOSECOD预测值进行交叉分析时,发现两个模型都发现有26个异常值。ECODHBOS结果一致。

19810

快速掌握Seaborn分布图10个例子

Seaborn离散函数允许创建3种不同类型分布区,分别是: 柱状图 Kde(核密度估计)图 Ecdf图 我们只需要调整kind参数来选择plot类型。 示例1 第一个例子是创建一个基本直方图。...例子6 displot函数还允许生成二维直方图。因此,我们得到了关于两列中值观察值(即行)分布概述。 让我们使用价格距离列创建一个。我们只是将列名传递给xy参数。...因此,我们可以为每个列传递不同比例。 例子7 Kde图还可以用于可视化变量分布。它们直方图很相似。然而,kde图使用连续概率密度曲线来表示分布,而不是使用离散箱。...曲线斜率高值范围有更多观测值。例如,我们没有很多房子距离超过30。与此相反,在10到15距离范围内有很多房子。 示例10 ecdf图也支持hue、colrow参数。...对于数据分析或机器学习任务,了解变量(即特征)分布是非常重要。我们如何处理给定任务可能取决于分布。 在这篇文章中,我们看到了如何使用Seaborndisplot函数来分析价格距离栏分布。

1.1K30

Python 离群值检测算法--ECOD

理解经验累积分布函数 为了解释 "非参数 " "参数 "这两个术语,我们需要澄清几个相关术语 "群体"、"样本 " "估计值"。统计学目标是了解我们感兴趣 "总体"。...ECDF()来推导累积分布函数 (CDF),如图 (2) 所示。...建模流程 本文提出了异常检测步骤 1、2、3 建模流程,包括模型开发、阈值确定特征评估。在步骤 1 中建立模型并分配离群值后,步骤 2 建议绘制离群值直方图以选择阈值。...我创建了一个简短函数 "descriptive_stat_threshold() "来显示基于阈值正常组异常组特征大小描述性统计。下面我简单地将阈值设为 5%。...在对HBOSECOD预测值进行交叉分析时,发现两个模型都发现有26个异常值。ECODHBOS结果一致。

8010

Python 离群值检测算法--ECOD

理解经验累积分布函数 为了解释 "非参数 " "参数 "这两个术语,我们需要澄清几个相关术语 "群体"、"样本 " "估计值"。统计学目标是了解我们感兴趣 "总体"。...ECDF()来推导累积分布函数 (CDF),如图 (2) 所示。...建模流程 本文提出了异常检测步骤 1、2、3 建模流程,包括模型开发、阈值确定特征评估。在步骤 1 中建立模型并分配离群值后,步骤 2 建议绘制离群值直方图以选择阈值。...我创建了一个简短函数 "descriptive_stat_threshold() "来显示基于阈值正常组异常组特征大小描述性统计。下面我简单地将阈值设为 5%。...在对HBOSECOD预测值进行交叉分析时,发现两个模型都发现有26个异常值。ECODHBOS结果一致。

10610

【数据分析 R语言实战】学习笔记 第五章 数据描述性分析(上)

R内嵌了很多常用统计分布,提供了四类函数:概率密度函数(density),累积分布函数(probability)、分位数(quantile)伪随机数(random)。...这些指标的主要作用包括: 反映总体各单位变量分布集中趋势一般水平; 便于比较同类现象在不同单位之间水平; 便于比较同类现象在不同时期发展变化趋势或规律; 用于分析现象之问依存关系。...5.2.2 R语言实现 函数summary()可以计算出一组数据五数均值。...(cars$speed) >q[4]-q[2] [1]7 R方差函数标准差函数分别是var()sd()R还有一个比较特殊函数,即离差mad(),它用于计算中位数绝对偏差,具有渐近正态一致性。...5.5.5经验分布图 在R函数ecdf()给出样本经验分布,通过plot()绘制 ecdf(x) plot (x,…,ylab="Fn (x)”,verticals=FALSE,col.01line

76620
领券