前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >妙:一图刻画数字视界

妙:一图刻画数字视界

作者头像
herain
发布2022-04-27 19:00:07
6340
发布2022-04-27 19:00:07
举报
文章被收录于专栏:数据指象
温馨提示

本公众号名称由趣味数据周刊更名为:数据指象。指象:谓天以景象示意,出自于《汉书》,希望以数据指象为言语,得一类而达之。

正文:

数字的堆积让人眼花缭乱,如何快速聚焦信息热点,发现潜在差异与趋势,是大数据时代的难点;办法很多,其中以图代替堆积的数字,化抽象为易观易感的影象是屡试不爽的方法之一;

怎么用图去刻画多元的数据,描述更多的变量,心中有图,做事不慌张。

七大洲七年的电话数量,我们可以用一张图刻画7*7=49个数据,轻易发现数据大小与趋势;

数据集:可以在R中内在数据集中,用data()查找到WorldPhones七大洲的七年的电话数。

如下的每一张图都刻画了这49个数据,让人一目了然,看见大洲间的优劣多寡,也可以看见时间年份上的变化发展。

1,常用的基础图像:

环形图,轮廓图,散点图及雷达图,是很常见的图像,我们可以借助Excel快速的绘制出来,我们只需记住每个图像表达的侧重点。

环形图:可以同时绘制多个样本或总体的数据系列,每一个样本或总体的数据系列为一个环,多用于用于结构比较研究。

散点图:将各变量用一系列平行的横坐标轴表示,变量值对应纵轴上的位置,用于研究多个样本在多个变量上的相似程度或变量间的相互关系,这依然是轮廓图及闪电图的妙处。

雷达图:也称为蜘蛛图(spider chart),从一个点出发,用每一条射线代表一个变量,多个变量的数据点连接成线,即围成一个区域,多个样本围成多个区域,就是雷达图。可用于研究多个样本在多个变量上的相似程度。

注意:当多个变量的取值相差较大或量纲不同时,可进行线性变换或对数变换处理后再做图。

2,奇妙的调和曲线图:

调和曲线图由 Andrews,1972提出。

原理:用二维空间的一条曲线表示多维空间的点,主要借助正余弦函数来刻画一组变量。不由得让人想联想到傅立叶变换。

注意:各变量数值悬殊时,要先标准化

价值发现聚类的特性:同类的曲线拧在一起,不同类拧成不同的束。需要借助计算机处理复杂的计算,这里我们使用R语言完善的包MSG来绘制调和曲线。

代码语言:javascript
复制
install.packages('MSG')
library(MSG)
andrews_curve(WorldPhones) #七大洲七年的电话数

由于数据量太少无法显示调和曲线的美感,不如一起看看下图的美,

代码语言:javascript
复制
#借助R中的数据集
andrews_curve(iris[,-5], col=as.integer(iris[,5])+100) 

3,总结如下:

  • 环形图—多个样本结构对比
  • 散点图—多个变量之间的关系
  • 轮廓图、闪电图,雷达图,调和曲线图,切尔谢夫脸谱图(R包):n很小,p比较大时,这些图像可以很直观进行样品间的比较,并且可以用于样品的初步分组和验证聚类分析的结果

- END -

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2020-08-02,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数据指象 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 温馨提示
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档