首页
学习
活动
专区
圈层
工具
发布

如何提取 R 语言内置数据集和著名 R 包的数据集

大家好,今天我们来聊一聊在 R 语言中如何提取内置数据集,以及如何使用著名 R 包中的数据集。相信很多同学在学习 R 语言时,都会遇到需要用数据集来做练习或者分析的情况。...在 R 里,数据集资源非常丰富,R 本身自带了许多经典数据集,而且各种 R 包中也包含了大量有用的例子,最后还可以利用一个专门的资源库——Rdatasets。...我们今天就一一讲解,带你走进 R 语言的数据世界! 1. R 语言自带的数据集 R 自带的数据集其实非常多,而且这些数据集涵盖了各种领域,比如统计学、医学、社会科学等。...提取著名 R 包中的数据集 除了 R 自带的数据集,很多常用的 R 包里也内置了数据集。对于生物或医学相关的研究,很多包会提供领域内的数据集,供用户进行模型验证或方法测试。...如何找到更多的数据集?——Rdatasets 如果你觉得 R 自带的数据集或者某个 R 包里的数据集不够用,别担心,还有一个专门存储 R 数据集的仓库,叫做 Rdatasets。

1.3K10

【机器学习】确定最佳聚类数目的10种方法

数据集选用比较出名的wine数据集进行分析 library(gclus) data(wine) head(wine) Loading required package: cluster ?...因为我们要找一个数据集进行聚类分析,所以不需要第一列的种类标签信息,因此去掉第一列。...library(mclust) m_clust Mclust(as.matrix(dataset), G=1:20) #聚类数目从1一直试到20 summary(m_clust) Gaussian...2.Nbclust包 Nbclust包是我在《R语言实战》上看到的一个包,思想和mclust包比较相近,也是定义了几十个评估指标,然后聚类数目从2遍历到15(自己设定),然后通过这些指标看分别在聚类数为多少时达到最优...这个方法也是出于《R语言实战》,自定义的一个求组内误差平方和的函数。

3.5K70
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    开发 | 机器学习之确定最佳聚类数目的10种方法

    数据集选用比较出名的wine数据集进行分析 library(gclus) data(wine) head(wine) Loading required package: cluster ?...因为我们要找一个数据集进行聚类分析,所以不需要第一列的种类标签信息,因此去掉第一列。...library(mclust) m_clust Mclust(as.matrix(dataset), G=1:20) #聚类数目从1一直试到20 summary(m_clust) Gaussian...2.Nbclust包 Nbclust包是我在《R语言实战》上看到的一个包,思想和mclust包比较相近,也是定义了几十个评估指标,然后聚类数目从2遍历到15(自己设定),然后通过这些指标看分别在聚类数为多少时达到最优...这个方法也是出于《R语言实战》,自定义的一个求组内误差平方和的函数。

    1.6K120

    转录组数据的时间序列分析,你学会了吗

    上周的公众号处理了不同时间序列的数据集,但因为是内置的数据集,很多分析流程都已经被pipeline函数包装了,那如果是自己的时间序列数据集该怎么分析呢?...曾老师就让我学习一下这个包,今天咱就浅学一下吧~ Package ‘Mfuzz’ 以数据集GSE120418为例,是转录组的数据集哦 主要内容:Transcriptome-wide analysis...tidyverse) 下载数据 d='GSE120418_RAW/' fs = list.files(d,pattern = '_Col_') ##这里我就想看看对照组的情况,就把对照组的GSM样本提取出来...results---- # 在cl这个对象中就保存了聚类的完整结果,对于这个对象的常见操作如下 cl$size # 查看每个cluster中的基因个数 cl$cluster[cl$cluster == 1] # 提取某个...results---- # 在cl这个对象中就保存了聚类的完整结果,对于这个对象的常见操作如下 cl$size # 查看每个cluster中的基因个数 cl$cluster[cl$cluster == 1] # 提取某个

    4K10

    与数据挖掘有关或有帮助的R包和函数的集合

    与数据挖掘有关或者有帮助的R包和函数的集合。...1、聚类 常用的包:fpc,cluster,pvclust,mclust 基于划分的方法:kmeans,pam,pamk,clara 基于层次的方法:hclust,pvclust,agnes,diana...基于模型的方法:mclust 基于密度的方法:dbscan 基于画图的方法:plotcluster,plot.hclust 基于验证的方法:cluster.stats 2、分类 常用的包: rpart...常用的包: arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则 DRM:回归和分类数据的重复关联模型 APRIORI算法,广度RST算法:apriori,drm ECLAT算法:采用等价类...scale 变量转置:t 抽样:sample 堆栈:stack,unstack 其他:aggregate,merge,reshape 9、与数据挖掘软件Weka做接口 RWeka:通过这个接口,可以在R中使用

    1.2K30

    R语言数据挖掘相关包总结-转帖

    与数据挖掘有关或者有帮助的R包和函数的集合。...1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust,...agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.stats...常用的包: arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则 DRM:回归和分类数据的重复关联模型 APRIORI算法,广度RST算法:apriori, drm ECLAT...SPADE算法: cSPADE 5、时间序列 常用的包: timsac 时间序列构建函数: ts 成分分解: decomp, decompose, stl, tsr 6、统计 常用的包: Base R,

    87440

    【学习】干货:与数据挖掘有关或有帮助的R包和函数的集合

    与数据挖掘有关或者有帮助的R包和函数的集合。...1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes..., diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.stats 2、分类...常用的包: arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则 DRM:回归和分类数据的重复关联模型 APRIORI算法,广度RST算法:apriori, drm ECLAT算法: 采用等价类...SPADE算法: cSPADE 5、时间序列 常用的包: timsac 时间序列构建函数: ts 成分分解: decomp, decompose, stl, tsr 6、统计 常用的包: Base R,

    1.4K50

    基于 mlr 包的 K 最近邻算法介绍与实践(上)

    tidyverse 是一个 “专为数据科学设计的 R 包集合”,创建的目的是让 R 中的数据科学任务更简单、更人性化、更可复制。 本期将先从常用的 k 近邻算法 出发!...即给定一个训练数据集,对新输入的样本,在训练数据集中找到与该样本最邻近的 k 个实例, 这 k 个实例中的多数属于哪个类,则新输入的样本也属于哪个类。 2....KNN 算法基本要素 KNN 算法中,所选择的邻近实例都是已经正确分类的对象,该算法只依赖于最邻近的一个或者几个实例的类别来决定待分样本所属的类别,分类器不需要使用训练集进行训练,训练时间复杂度为 0,...应用举例 本文将先介绍 mlr 包中 KNN 算法的使用方法,以 mclust 包中的 diabetes 数据集为例。...3.1 加载数据 library(mclust) library(tibble)#属于 tidyverse,以合理的方式组织和显示数据 data(diabetes, package = "mclust"

    2.5K21

    单细胞转录组 | 使用SingleR进行细胞亚群自动注释

    加载数据集 使用SingleR的最简单方法是使用内置参考对细胞进行注释。...这里我们提供了下载好的数据集:链接:https://pan.baidu.com/s/1iThoEbHe_fJOSxiSZGeKFw 提取码:2022 # 加载人数据集 load("D:/sc-seq/SingleR_ref...data <- GetAssayData(scRNA_harmony, slot="data") 6.2 提取clusters数据 因为后续我们要对clusters进行注释,在这里我们提取clusters...SingleR注释 test:单细胞表达值的数字矩阵,即:前面提取的data数据; ref:来自参考数据集的表达式值的数值矩阵,即:前面加载的参考数据集; labels:ref中所有样本的已知标签的字符向量或因子...= clusters, assay.type.test = "logcounts", assay.type.ref = "logcounts") ## 提取注释信息

    6.4K52

    R语言学习路线和常用数据挖掘包

    对应的中文版有《金融时间序列分析常见问题集》,当然,目前还没有发出来。...1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk,clara 基于层次的方法: hclust, pvclust,agnes..., diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster,plot.hclust 基于验证的方法: cluster.stats 2、分类...randomForest 回归, Logistic回归, Poisson回归: glm, predict,residuals 生存分析: survfit, survdiff,coxph 3、关联规则与频繁项集...常用的包: arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则 DRM:回归和分类数据的重复关联模型 APRIORI算法,广度RST算法:apriori, drm ECLAT算法:采用等价类

    84260

    R语言学习路线和常用数据挖掘包

    对应的中文版有《金融时间序列分析常见问题集》,当然,目前还没有发出来。...1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk,clara 基于层次的方法: hclust, pvclust,agnes..., diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster,plot.hclust 基于验证的方法: cluster.stats 2、分类...randomForest 回归, Logistic回归, Poisson回归: glm, predict,residuals 生存分析: survfit, survdiff,coxph 3、关联规则与频繁项集...常用的包: arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则 DRM:回归和分类数据的重复关联模型 APRIORI算法,广度RST算法:apriori, drm ECLAT算法:采用等价类

    1.1K60

    R语音与数据挖掘常用的包

    对应的中文版有《金融时间序列分析常见问题集》,当然,目前还没有发出来。...1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust, agnes..., diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.stats 2、分类...randomForest 回归, Logistic回归, Poisson回归: glm, predict, residuals 生存分析: survfit, survdiff, coxph 3、关联规则与频繁项集...常用的包: arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则 DRM:回归和分类数据的重复关联模型 APRIORI算法,广度RST算法:apriori, drm ECLAT算法: 采用等价类

    2.1K80

    R语言学习路线图-转帖

    对应的中文版有《金融时间序列分析常见问题集》,当然,目前 还没有发出来。...1、聚类 常用的包: fpc,cluster,pvclust,mclust 基于划分的方法: kmeans, pam, pamk, clara 基于层次的方法: hclust, pvclust,...agnes, diana 基于模型的方法: mclust 基于密度的方法: dbscan 基于画图的方法: plotcluster, plot.hclust 基于验证的方法: cluster.stats...randomForest 回归, Logistic回归, Poisson回归: glm, predict, residuals 生存分析: survfit, survdiff, coxph 3、关联规则与频繁项集...常用的包: arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则 DRM:回归和分类数据的重复关联模型 APRIORI算法,广度RST算法:apriori, drm ECLAT

    69030
    领券