从科学可视化到信息可视化再到可视分析,从三维空间数据强调线、面、体等几何拓扑结构到抽象数据包括数值数据和非数值数据文本、图像、层次结构等,再到融合数据表达与分析、人机交互和可视化等技术推动分析决策。数据可视化是艺术也是科学。
数据可视化将数据所包含的信息的综合体含属性和变量,抽象化为一些图表形式,主要目的是借助统计图和其他图的形式准确、清晰、有效传达数据种包含的信息。
高纬数据可视化
小到一件商品就由型号、厂家、价格、性能、售后服务等多种属性组成,大到大气、海洋、宇宙等诸多维度的复杂现象,人们很难理解三维以上的数据,所以高纬数据可视化图形化表现高纬度的数据,并辅以交互手段帮助人们分析和理解高纬数据。高纬数据可视化分为降维方法和非降维方法。
PCA主成分分析是一种普遍线性降维方法,原理将原来的样本数据投影到一个新的空间中。MDS多维尺度分析分析研究对象的相似性或差异性的一种多元统计分析方法。
非降维方法
保留高纬数据在每个维度上的信息,可以展示数据的所有维度。如何对不同维度进行数据到图像属性的映射,当维度较少时可直接通过与位置、颜色、形状等多种视觉属性相结合的方式。当维度数据增多,数据量变大需要借助散点图矩阵和平行坐标等。
1、星形图:使得不同数据对象之间的比较更加容易和高效,可看成平行坐标的极坐标版本,元数据的每个属性由一个坐标轴表示,所有坐标轴链接到共同的原点。
2、切尔诺夫脸谱图:用脸谱来分析多维度数据,即将P个维度的数据用人脸部位的形状和大小来表示,和星形图类似也采用图标表示单个多元数据的对象,不同是采用模拟人脸的图标来表示数据对象,它可以把多元数据用二维的人脸方式整体表现。
3、散点图:本质将抽象的数据对象映射到二维的直角坐标系表示的空间。数据对象在坐标系的位置反映了其分布特征,直观有效揭示两个属性之间的关系。面对多元数据可泛化为:采用不同空间映射方法将多元数据关联,而整个数据集在空间中的分布则反映了各个维度之间的关系及数据集的整体特性。
4、平行坐标:将高纬数据的各个变量维度用一系列相互平行的坐标轴来表示,变量值对应轴上的位置。将描述不同变量维度的同一数据对应各点链接成折线,代表一个数据的一条折线在平行坐标轴上的投影就反映变化的趋势和各个变量维度间的相互关系。两个维度关系不如散点图,数据量大市会受图元堆叠的影响。不过显示面积于维度数目正比。平行坐标中结合散点图,图例:
网络数据可视化
辅助用户认识网络内部结构,有助于挖掘隐藏在网络内部的有价值信息。相对于树形数据中明显的层次结构,网络数据并不具有自底向上或自顶向下的层析结构,表达的关系更加复杂和自由。图的绘制包括3个方面:网络布局、网络属性可视化和用户交互,其中最核心的市网络布局决定图的结构关系,最常用网络布局由节点-链接法和相邻矩阵。
1、节点-链接法:用节点表示对象,用线或者边表示关系的节点-链接部署,例如关系型数据库的模式表达、地铁线路图表达。优点比较直观反映网络关系,灵活有许多的变种。局限性,几乎所有直观算法的复杂度高,对于密集的图不是很适用。
1)力引导布局:“启发式画图算法”一文中提出,目的是减少布局中边的交叉,尽量保持边的长度一致。无论是弹簧模型还是能量模型,其算法的本质是要接一个能量优化问题,区别在于优化函数的组成不同。优化对象包括引力和斥力部分,不同算法对引力和斥力的表达方式不同。力引导布局易于理解、容易实现,可以用于大多数网络数据集,而且实现的效果具有较好的对称性和局部聚合性,因此比较美观。然而,力引导布局只能达到局部优化,而不能达到全局优化,并且初始位置对最后优化结果的影响较大。
2)多维度尺度分析布局:MDS分析就是要求解出每个样本点的原始坐标,然后保证这些样本点的原始坐标尽量符合这个距离矩阵关系。MDS根据数据集特征分为不考虑个体差异MDS模型和考虑个体差异MDS模型。MDS模型允许多种类型的数据输入,并在实际应用中,也有多种测量相似性或差异性的方法,根据分析数据类型分为两种:
度量化MDS模型:所输入的数据是直接反映变量间差异或相似的距离或比率,例如城市间的距离。
非度量化MDS模型:输入的数据不直接反映变量间的差异二十通过对其属性的评分,间接地反映变量间的差异或相似性。
3)弧长链接图:将节点沿某个线性轴或形状排列,圆弧表达节点之间的链接关系。弧长链接图不能像二维布局那样表达图形全局结构,但在节点良好排序后可清晰地呈现环和桥的结构。
2、邻接矩阵布局:代表N个节点之间关系的N*N的矩阵,矩阵内(n,m)表达第n个节点和第m个节点之间的关系。非常适合密集图。可视化结果比较抽象,难以呈现网络的拓扑结果,难以跟踪出路径。
领取专属 10元无门槛券
私享最新 技术干货