前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

K-means和层次聚类分析癌细胞系微阵列数据和树状图可视化比较

作者头像
拓端
发布2022-03-09 15:36:28
3070
发布2022-03-09 15:36:28
举报
文章被收录于专栏:拓端tecdat

原文链接:http://tecdat.cn/?p=25196

目标

对“NCI60”(癌细胞系微阵列)数据查看文末了解数据获取方式使用聚类方法,目的是找出观察结果是否聚类为不同类型的癌症。K_means 和层次聚类的比较。

代码语言:javascript
复制
#数据信息

dim(nata)
代码语言:javascript
复制
nci.labs\[1:4\]
代码语言:javascript
复制
table(ncibs)
代码语言:javascript
复制
ncbs
代码语言:javascript
复制
scale # 标准化变量(均值零和标准差一)。

层次聚类全链接、平均链接和单链接之间的比较。

代码语言:javascript
复制
plot(hclust,ylab = "",cex=".5",col="blue") #使用全链接对观察结果进行层次聚类。
代码语言:javascript
复制
plot(hclust,cex=".5",col="blue") #使用平均链接对观察进行层次聚类。
代码语言:javascript
复制
par(mfrow=c(1,1))
plot(hclust,col="blue") #使用单链接对观察进行层次聚类。

观察结果

单链接层次聚类倾向于产生拖尾的聚类:非常大的聚类,单个观测值一个接一个地附在其中。

另一方面,全链接和平均链接往往会产生更加平衡和有吸引力的聚类。

由于这个原因,全链接和平均链接比单链接层次聚类更受欢迎。单一癌症类型中的细胞系确实倾向于聚在一起,尽管聚类并不完美。

代码语言:javascript
复制
table(hrs,ncbs)

我们可以看到一个清晰的模式,即所有白血病细胞系都属于聚类 3,其中乳腺癌细胞分布在三个不同的聚类中。

代码语言:javascript
复制
plot(hcu)
abline

参数 h=139 在高度 139 处绘制一条水平线。这是 4 个不同聚类的划分结果。

代码语言:javascript
复制
out
代码语言:javascript
复制
kout=kmea
table

我们看到,获得层次聚类和 K-means 聚类的四个聚类产生了不同的结果。K-means 聚类中的簇 2 与层次聚类中的簇 3 相同。另一方面,其他聚类簇不同。

结论

层次聚类在 NCI60 数据集中能比 K-means聚类得到更好的聚类。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-01-28,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 拓端数据部落 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 原文链接:http://tecdat.cn/?p=25196
  • 目标
  • 观察结果
  • 结论
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档