与数据挖掘有关或有帮助的R包和函数的集合

与数据挖掘有关或者有帮助的R包和函数的集合。

1、聚类

常用的包:fpc,cluster,pvclust,mclust

基于划分的方法:kmeans,pam,pamk,clara

基于层次的方法:hclust,pvclust,agnes,diana

基于模型的方法:mclust

基于密度的方法:dbscan

基于画图的方法:plotcluster,plot.hclust

基于验证的方法:cluster.stats

2、分类

常用的包:

rpart,party,randomForest,rpartOrdinal,tree,marginTree,

maptree,survival

决策树:rpart,ctree

随机森林:cforest,randomForest

回归,Logistic回归,Poisson回归:glm,predict,residuals

生存分析:survfit,survdiff,coxph

3、关联规则与频繁项集

常用的包:

arules:支持挖掘频繁项集,最大频繁项集,频繁闭项目集和关联规则

DRM:回归和分类数据的重复关联模型

APRIORI算法,广度RST算法:apriori,drm

ECLAT算法:采用等价类,RST深度搜索和集合的交集:eclat

4、序列模式

常用的包:arulesSequences

SPADE算法:cSPADE

5、时间序列

常用的包:timsac

时间序列构建函数:ts

成分分解:decomp,decompose,stl,tsr

6、统计

常用的包:BaseR,nlme

方差分析:aov,anova

密度分析:density

假设检验:t.test,prop.test,anova,aov

线性混合模型:lme

主成分分析和因子分析:princomp

7、图表

条形图:barplot

饼图:pie

散点图:dotchart

直方图:hist

密度图:densityplot

蜡烛图,箱形图boxplot

QQ(quantile-quantile)图:qqnorm,qqplot,qqline

Bi-variateplot:coplot

树:rpart

Parallelcoordinates:parallel,paracoor,parcoord

热图,contour:contour,filled.contour

其他图:stripplot,sunflowerplot,interaction.plot,matplot,fourfoldplot,

assocplot,mosaicplot

保存的图表格式:pdf,postscript,win.metafile,jpeg,bmp,png

8、数据操作

缺失值:na.omit

变量标准化:scale

变量转置:t

抽样:sample

堆栈:stack,unstack

其他:aggregate,merge,reshape

9、与数据挖掘软件Weka做接口

RWeka:通过这个接口,可以在R中使用Weka的所有算法。

原文发布于微信公众号 - 大数据(hzdashuju)

原文发表时间:2015-01-19

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯移动品质中心TMQ的专栏

Tensorflow 的 word2vec 详细解释:basic篇

Word2Vec即Word to vector(词汇转向量)。我们希望词义相近的两个单词,在映射之后依然保持相近,词义很远的单词直接则保持很远的映射距离。

1.5K4
来自专栏肖洒的博客

基于OpenCV全景拼接(Python)

翻译自https://www.pyimagesearch.com 基于OpenCV(Python)的图片拼接和全景图构建。“缝合”两张有重叠区域的图来创建一张全...

1.4K2
来自专栏大数据文摘

机器学习中的线性代数:关于常用操作的新手指南

2072
来自专栏DHUtoBUAA

编程求取直线一般式表达式,两直线交点

背景介绍   最近在水面无人艇(USV)模拟仿真中,用到了一些点和线的关系求解,本文主要讲述一下两点确认直线,点到直线距离,两条直线的交点等问题的解决方法,并给...

5057
来自专栏祝威廉

基于Spark /Tensorflow使用CNN处理NLP的尝试

关于CNN如何和NLP结合,其实是被这篇文章指导入门的 。 我觉得使用CNN去处理一些NLP的分类问题,是非常不错的。

1832
来自专栏Python数据科学

Seaborn从零开始学习教程(四)

数据集中的数据类型有很多种,除了连续的特征变量之外,最常见的就是类目型的数据类型了,常见的比如人的性别,学历,爱好等。这些数据类型都不能用连续的变量来表示,而是...

1912
来自专栏机器学习算法与Python学习

Torch7模型训练

Torch7搭建卷积神经网络详细教程已经详细的介绍啦Module模块,这里再次基础上再给出一些上Container、 Transfer Functions La...

39413
来自专栏AI研习社

详解自动识别验证码,LSTM大显身手

这是去年博主心血来潮实现的一个小模型,现在把它总结一下。由于楼主比较懒,网上许多方法都需要切割图片,但是楼主思索了一下感觉让模型有多个输出就可以了呀,没必要一定...

4368
来自专栏Hadoop数据仓库

HAWQ + MADlib 玩转数据挖掘之(十一)——分类方法之决策树

一、分类方法简介 1. 分类的概念         数据挖掘中分类的目的是学会一个分类函数或分类模型(也常常被称作分类器),该模型能把数据库中的数据项映射到给定...

33410
来自专栏大数据挖掘DT机器学习

百度魅族深度学习大赛初赛冠军作品(图像识别.源码)

赛题以识别类似手写体的四则运算式为主题,参赛者需要在充满干扰信息的10万张图片中,设计算法识别图片上数学运算式并计算结果。决赛在初赛的基础上,引入分数和更加复杂...

5636

扫码关注云+社区

领取腾讯云代金券