数据挖掘常用模型构建示例(R语言版)

Linear Regression

library(MASS)
lm_fit = lm(medv~poly(rm,2)+crim,data = Boston) # 构建线性模型
summary(lm_fit) # 检查线性模型

Ridge Regreesion and Lasso

# 岭回归与lasso回归跟其他模型不同,不能直接以公式的形式把数据框直接扔进去,也不支持subset;所以数据整理工作要自己做
library(glmnet)
library(ISLR)
Hitters = na.omit(Hitters)
x = model.matrix(Salary~., Hitters)[,-1] # 构建回归设计矩阵
y = Hitters$Salary
ridge.mod = glmnet(x,y,alpha = 0,lambda = 0.1) # 构建岭回归模型
lasso.mod = glmnet(x,y,alpha = 1,lambda = 0.1) # 构建lasso回归模型

Logistic Regression

library(ISLR)
train = Smarket$Year<2005
logistic.fit = glm(Direction~Lag1+Lag2+Lag3+Lag4+Lag5+Volume,data=Smarket,family=binomial, subset=train) # 构建逻辑回归模型
glm.probs = predict(glm.fit,newdata=Smarket[!train,],type="class")

K-Nearest Neighbor

library(class)
library(ISLR)
standardized.X=scale(Caravan[,-86]) # 先进行变量标准化
test <- 1:1000
train.X <- standardized.X[-test,]
train.Y <- Caravan$Purchase[-test]
test.X <- standardized.X[test,]
test.Y <- Caravan$Purchase[test]
knn.pred <- knn(train.X,test.X,train.Y,k=3) # 直接给出测试集预测结果

Naive Bayse

library(e1071)
classifier<-naiveBayes(iris[,c(1:4)],iris[,5]) # 构建朴素贝叶斯模型
table(predict(classifier,iris[,-5]),iris[,5]) # 应用朴素贝叶斯模型预测

Decision Tree

library(tree)
library(ISLR)
attach(Carseats)
High = ifelse(Sales <= 8 ,"No","Yes")
Carseats = data.frame(Carseats,High)
train = sample(1:nrow(Carseats),200)
Carseats.test = Carseats[-train,]
High.test = High[-train]

tree.carseats = tree(High~.-Sales,Carseats,subset=train) # 建立决策树模型
summary(tree.carseats)
# 可视化决策树
plot(tree.carseats)
text(tree.carseats,pretty = 0)

Random Forest

library(randomForest)
library(MASS)
train = sample(1:nrow(Boston),nrow(Boston)/2)
boston.test = Boston[-train,]
rf.boston = randomForest(medv~.,data = Boston,subset = train,mtry=6,importance=T)
rf.boston
summary(rf.boston)

Boosting

library(gbm)
library(MASS)
train = sample(1:nrow(Boston),nrow(Boston)/2)
boston.test = Boston[-train,]
boost.boston = gbm(medv~.,data = Boston[train,],distribution = "gaussian",n.trees=5000,interaction.depth=4)
boost.boston
summary(boost.boston)

Princpal Content Analysis

library(ISLR)
pr.out = prcomp(USArrests,scale. = T)
pr.out$rotation
biplot(pr.out,scale = 0)

Apriori

library(arules)  #加载arules程序包
data(Groceries)  #调用数据文件
frequentsets=eclat(Groceries,parameter=list(support=0.05,maxlen=10))  #求频繁项集
inspect(frequentsets[1:10])    #察看求得的频繁项集
inspect(sort(frequentsets,by="support")[1:10])    #根据支持度对求得的频繁项集排序并察看(等价于inspect(sort(frequentsets)[1:10])
rules=apriori(Groceries,parameter=list(support=0.01,confidence=0.01))    #求关联规则
summary(rules)    #察看求得的关联规则之摘要
x=subset(rules,subset=rhs%in%"whole milk"&lift>=1.2)    #求所需要的关联规则子集
inspect(sort(x,by="support")[1:5])    #根据支持度对求得的关联规则子集排序并察看

K-means and Hierarchical Clustering

library(ISLR)
nci.labels = NCI60$labs
nci.data = NCI60$data
sd.data = scale(nci.data)
data.dist = dist(sd.data)
# k-means
km.out = kmeans(sd.data,4,nstart = 20)
# Hierarchical Clustering 
hc.out = hclust(dist(sd.data))
plot(hc.out,labels = nci.labels)

Support Vector Machine

library(e1071)
library(ISLR)
dat = data.frame(x = Khan$xtrain,y = as.factor(Khan$ytrain))
out = svm(y~.,data = dat, kernel = "linear", cost = 10)
summary(out)

Artificial Neural Network

library(AMORE)
x1 <- round(runif(2000,1,2000))         #随机生成2000个数x2 <- round(runif(2000,1,2000))         
x11 <- scale(x1[1:1900])                            #数据标准化,并选取1900个组作为学习集x12 <- scale(x2[1:1900])              
x21 <- scale(x1[1901:2000])               #选取100组作为待测集x22 <- scale(x2[1901:2000])
y1 <- x11^2+x12^2y2 <-x21^2+x22^2p <-cbind(x11,x12)                     #整合为矩阵q <-cbind(x21,x22)
target = y1

net<-newff(n.neurons=c(2,2,1),learning.rate.global=1e-2,momentum.global=0.4,error.criterium="LMS", Stao=NA,hidden.layer="tansig",
           output.layer="purelin",method="ADAPTgdwm")
result <- train(net, p, target,error.criterium="LMS", report=TRUE, show.step=100, n.shows=5 )

z <- sim(result$net, q)          #对待测集进行预测plot(q[1:100,1],z, col="blue",pch="+")         #画出待测集模型运算后的图形points(q[1:100,1],y2,col="red", pch="x")     #画出待测集图形,并比较两者之间的差异。

作者:真依然很拉风 链接:http://www.jianshu.com/p/7d32a6a9ca95

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-09-05

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏企鹅号快讯

详解各种随机算法

转自:JarvisChu 之前将的算法都是确定的,即对于相同的输入总对应着相同的输出。但实际中也常常用到不确定的算法,比如随机数生成算法,算法的结果是不确定的,...

68490
来自专栏大数据挖掘DT机器学习

比较R语言机器学习算法的性能

原文:Compare The Performance of Machine Learning Algorithms in R 译文:http://g...

35760
来自专栏程序生活

CS224n 笔记2-词向量表示:Word2vec1. 单词含义的表示2. Word2Vec的主要思路3. 更多Word2Vec细节4 .梯度的推导5. 损失/目标函数相关推荐阅读

1. 单词含义的表示 我们如何表示一个单词的意思 下面是意思的定义: 用词语,语句表示的想法或观点 人们使用词汇,符号来表达的想法 在一篇文章和艺术品表达的观点...

45680
来自专栏腾讯技术工程官方号的专栏

机器学习在HEVC 视频编码中的实践

背景与目标 当前视频编码中应用最广泛的是AVC(H.264),而HEVC(H.265)作为下一代的视频编码算法,在压缩性能上可以再节省40%的码率,优势很明显,...

36180
来自专栏人工智能头条

互联网广告CTR预估新算法:基于神经网络的DeepFM原理解读

CTR(Click-Through-Rate)即点击通过率,是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击到达...

35320
来自专栏机器之心

四天速成!香港科技大学 PyTorch 课件分享

机器之心整理 参与:黄小天、蒋思源 前天,香港科技大学计算机系教授 Sung Kim 在 Google Drive 分享了一个 3 天速成的 TensorFlo...

459100
来自专栏数据科学学习手札

(数据科学学习手札24)逻辑回归分类器原理详解&Python与R实现

一、简介   逻辑回归(Logistic Regression),与它的名字恰恰相反,它是一个分类器而非回归方法,在一些文献里它也被称为logit回归、最大熵...

42680
来自专栏专知

【资源】15个在线机器学习课程和教程

本文推荐15个机器学习课程和行业领先大牛的教程。其中大多数课程都是免费的,无需注册即可自学。内容包括决策树、朴素贝叶斯、逻辑回归、神经网络和深度学习、估计、贝叶...

30460
来自专栏大数据文摘

史上最全!27种神经网络简明图解:模型那么多,我该怎么选?

23640
来自专栏SnailTyan

Batch Normalization论文翻译——中英文对照

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Cov...

23810

扫码关注云+社区

领取腾讯云代金券