首页
学习
活动
专区
工具
TVP
发布

R语言交流中心

专栏作者
178
文章
581362
阅读量
111
订阅数
R语言实现决策树的分析
决策树分析主要是根据数据的属性建立决策模型。此模型经常被用来解决回归问题和分类问题。常见的算法包括ID3,C4.5,随机森林和CART。其中ID3主要对可选值多的属性具有一定的偏向性;相反,C4.5则主要对可选值少的属性具有一定的偏向性。最终便设计了CART算法来中和这两个极端。CART在特征选取的时候引入了基尼指数,此指数主要是数据纯度的度量方法。所谓数据纯度,就其表面意思便是指的通过特征选择获取的分类结果的纯度情况。当然还有其它的纯度评价函数,那就是信息增益,这个参数可以度量某个特征对分类结果影像的大小,从而确定可以使得模型得到高纯度分类结果的特征属性。接下来我们看下在R中如何实现决策树的分析。实现的包不止一个,包括rpat,party等。我们今天主要介绍party的使用。首先看下包的安装:
一粒沙
2021-04-30
1.6K0
R语言中的机器学习
大家平时都会用到一些回归模型,今天我们来看一个集合多个模型建模和可视化的包mixomics。首先看下此包的所包含的方法列表:
一粒沙
2020-06-30
2.1K1
R语言实现PCOA分析
大家对主成分分析(principal components analysis, PCA) 都很熟悉,但是今天我们来介绍下主坐标分析(principal coordinate analysis, PCoA)。那么这两个差了个o字母具体有什么区别?首先PCA是常用的降维算法;利用线性变换,将数据变换到一个新的坐标系统中;然后再利用降维的思想,使得任何数据投影的第一大方差在第一个坐标(称为第一主成分)上,第二大方差在第二个坐标(第二主成分)上。这种降维的思想首先减少数据集的维数,同时还保持数据集的对方差贡献最大的特征,最终使数据直观呈现在二维坐标系。PCoA主要是探索数据相似度或者相异度可视化方法。可呈现研究数据相似性或差异性的可视化坐标,是一种非约束性的数据降维分析方法,可用来研究样本群落组成的相似性或相异性。其实通俗的讲,PCA主要是基于原始数据矩阵的降维;PCoA主要是基于样本的原始数据计算出来的距离矩阵的降维。如果样本数目比较多,而物种数目比较少,那肯定首选PCA;如果样本数目比较少,而物种数目比较多,那肯定首选PCoA。
一粒沙
2019-12-19
10.5K1
R语言实现非房室模型算法
药代动力学分析过程中房室模型和非房室模型成为两大主要分支。房室模型分析法的基础是把机体以类群形式分为几个不同的隔室或房室,然后根据药物在各房室间的转运或消除速率常数建立能够反应药物在机体内的变化规律的数学模型。其参数的估测都是依据房室模型而进行的。非房室方法不需要对药物或代谢物设定专门的房室。事实上,只要药物符合线性药物动力学,那不管它属于什么样的隔室模型,都能采用此法。同时非房室方法是处理药物在体内分布和消除不规则的药物动力学分析的主要手段。尽管非房室模型可以覆盖所有的房室模型,同时在用于药物浓度非特异性测定方面优于房室模型,但是目前房室模型已成为药代动的金标准。总之,两者各有所长。今天我们主要给大家介绍在R语言中如何实现非房室模型分析。我们需要用到R包PKNCA。
一粒沙
2019-08-21
3.1K0
PCA,K-PCA,ICA你真的知道吗?
今天我们给大家介绍下PCA,K-PCA以及ICA之间有什么关系,同时在R语言如何实现这几个模型。
一粒沙
2019-07-31
3K0
R语言之主成分分析
注意事项:在主成分分析中变量的数量不得大于样本数量;如果样本量小于变量数,但是样本量足够大,那么也可以通过抽样实现主成分分析。
一粒沙
2019-07-31
8920
R语言实现拷贝数评估计算
拷贝数的概念大家并不陌生,今天我们给大家介绍一个可以计算array-CGH平台测拷贝数的数据分析,拷贝数评估R包DNAcopy。
一粒沙
2019-07-31
1.2K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档