R语言主成分分析的案例

原文:http://www.flybi.net/blog/dataman/3073

作者 : 面包君 我爱数据分析网创始人,阿里招聘&资深数据分析,动漫爱好者

R语言也介绍到案例篇了,也有不少同学反馈说还是不是特别明白一些基础的东西,希望能够有一些比较浅显的可以操作的入门。其实这些之前在SPSS实战案例都不少,老实说一旦用上了开源工具就好像上瘾了,对于以前的SAS、clementine之类的可视化工具没有一点感觉了。本质上还是觉得要装这个、装那个的比较麻烦,现在用R或者python直接简单安装下,导入自己需要用到的包,活学活用一些命令函数就可以了。以后平台上集成R、python的开发是趋势,包括现在BAT公司内部已经实现了。

今天就贴个盐泉水化学分析资料的主成分分析和因子分析通过R语言数据挖掘的小李子:

有条件的同学最好自己安装下R,操作一遍。

今有20个盐泉,盐泉的水化学特征系数值见下表.试对盐泉的水化学分析资料作主成分分析和因子分析.(数据可以自己模拟一份)

其中x1:矿化度(g/L);

x2:Br•103/Cl;

x3:K•103/Σ盐;

x4:K•103/Cl;

x5:Na/K;

x6:Mg•102/Cl;

x7:εNa/εCl.

1.数据准备

导入数据保存在对象saltwell中

>saltwell<-read.table("c:/saltwell.txt",header=T)

>saltwell

2.数据分析

1标准误、方差贡献率和累积贡献率

>arrests.pr<- prcomp(saltwell, scale = TRUE)

>summary(arrests.pr,loadings=TRUE)

2每个变量的标准误和变换矩阵

>prcomp(saltwell, scale = TRUE)

3查看对象arests.pr中的内容

> > str(arrests.pr)

4利用主成分的标准误计算出主成分的累积方差比例

>cumsum(arrests.pr$sdev^2)/7

[1]0.6067060 0.7850968 0.9165341 0.9790524 0.9954128 0.9999024 1.0000000

5各个化学成分占主成分的得分

> arrests.pr$x

6数据分析结果图形表示

>screeplot(arrests.pr,main="saltwell")

> biplot(arrests.pr)

按第一主成分排序的结果:

> data.frame(sort(arrests.pr$x[,1]))

主因子分析

计算数据的相关系数矩阵

saltwell.cor<-cor(saltwell)

> saltwell.cor

计算特征值和特征向量及因子的贡献率和累积贡献率

> saltwell.eigen<-eigen(saltwell.cor)

> saltwell.eigen

根据主成分分析结果确定公共因子个数.

> saltwell.pr<- princomp(saltwell, cor=T)

> summary(saltwell.pr)

均值

> saltwell.pr$center

标准误

> saltwell.pr$scale

下面用特征值的平方根乘以相应的特征向量得到因子载荷矩阵.并且只显示前2个因子的结果:

> t(sqrt(saltwell.eigen$values) *t(saltwell.eigen$vectors))[,1:2]

用R语言自带的函数factanal()进行分析

>saltwell.fa<-factanal(saltwell,factors = 2)

> print(saltwell.fa, cutoff=0.001)

下面用回归方法(regression)计算因子得分并作图,然后对样本进行分类.

> saltwell.fa<-factanal(saltwell,factors = 2, scores = "regression")

> saltwell.fa$scores

原文发布于微信公众号 - 大数据挖掘DT数据分析(datadw)

原文发表时间:2016-03-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI科技大本营的专栏

谷歌大脑深度学习从入门到精通视频课程[8.4]:稀疏编码——参数更新(块坐标下降)

AI100 已经引入 Hugo Larochelle 教授的深度学习课程,会在公众号中推送,并且对视频中的 PPT 进行讲解。课后,我们会设计一系列的问题来巩...

2695
来自专栏PPV课数据科学社区

【思维导图】机器学习基础之「统计篇」

本文用一系列「思维导图」由浅入深的总结了「统计学」领域的基础知识,是对之前系列文章做的一次完整的梳理,也是我至今为止所有与统计有关的学习笔记。众所周知,「统计学...

3166
来自专栏深度学习入门与实践

【原】数据分析/数据挖掘/机器学习---- 必读书目

总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门--->进阶分块写。下...

8457
来自专栏大数据挖掘DT机器学习

基于微软案例数据库数据挖掘知识点总结(Microsoft Naive Bayes 算法)

本篇文章主要是继续上两篇Microsoft决策树分析算法和Microsoft聚类分析算法后,采用另外更为简单一种分析算法对目标顾客群体的挖掘,同样的利用微软案例...

34510
来自专栏工科狗和生物喵

【毕设进行时-工业大数据,数据挖掘】第一天收获

【个人看法】 支持向量机的核心与决策树类似。但是还是有不同之处,现在多学习下支持向量机,后面用自己的算法也行。或者给出多个版本的话,可以作为几个方案去解释!

1042
来自专栏大数据文摘

17张思维导图,一网打尽机器学习统计基础(附下载)

1764
来自专栏量子位

OpenAI发布DQN实现,提出5点做强化学习模型的最佳方法

李林 编译整理 量子位 报道 | QbitAI 出品 今天,马斯克和YC总裁Altman等创办的人工智能非营利组织OpenAI,发布了DQN及其三个变体的Ten...

2574

关于情绪分析项目的10个提议

在我的统计学硕士学位论文项目过程中,我专注于情感分析的问题。情感分析是自然语言处理的一个应用,目的是识别情感(积极的vs消极的vs中性的),主观性(客观的vs主...

2036
来自专栏企鹅号快讯

分享一波关于做 Kaggle 比赛,Jdata,天池的经验,看完我这篇就够了

本文作者Jasperyang,毕业于BUPT。本文原载于知乎专栏,AI 研习社授权转载。 Kaggle 的数据挖掘比赛近年来很火,以至于中国兴起了很多很多类似的...

3668
来自专栏专知

【前沿】飞入寻常百姓家:DeepCognition.ai教你轻松部署AI应用

【导读】你是否曾为选择TensorFlow或Keras而感到纠结?又是否认深度学习编程费时费力而感到苦恼?本文带大家领略一下DeepCognition.ai,其...

3204

扫描关注云+社区