PCA是数据降维的经典方法,本文给出了一个将PCA用于图片压缩的例子,并探索了标准化处理(normalization)对PCA的影响。文末还讨论了PCA推导第一主成分的过程。
PCA (Principal component analysis,主成分分析) 是一个经典的数据降维方法,可以将高维数据映射到低维空间中,使得低维空间中点在新坐标轴(主成分)上的坐标间方差尽可能大。PCA被广泛应用于各行各业的数据分析,其中当然也包括生物数据的分析。
讲解PCA的文章数不胜数,本文旨在作为一个学习笔记,不对PCA的原理和应用作过多重复的介绍;而是先给出一个将PCA用于图片压缩的例子,从而能够直观地感受PCA的效果;然后结合这个例子对PCA的推导做一些讨论。
我们可以将图片看作是一个
(灰度空间)或者
(RGB空间)的数组。以灰度图片为例,可以利用PCA将
的矩阵降维成
(
)的矩阵,从而达到图片压缩的效果。
我们选择经典图片Lenna作展示 [来源参考附录六],Lenna图片的大小是
。在这个例子中,我们首先将彩色的图片转化为灰度图片。
(灰度原图)
我们看看在降维之前先对数据进行标准化(normalization)处理的话,会有怎样的结果 [代码见附录二]。所谓标准化处理,做过PCA的朋友应该很熟悉,就是将矩阵的每一列的数据进行缩放,使得每一列的平均值是0,标准差是1。
这里的
就是保留多少个主成分。
(灰度效果图一)
如果降维前不做标准化处理,结果是这样的 [代码见附录三]。
(灰度效果图二)
很明显地,无论做不做标准化处理,保留的主成分越多,重建的图片越清晰。对于作标准化处理的情形,当我们保留50个主成分的时候,重建的图片已经有一个比较高的清晰度了,此时降维后数据大概是原数据大小的20% [附录一]。同时,比较上面两幅效果图,我们可以看出:降维前进行标准化处理对PCA效果有明显的提升。
当然,我们也可以直接对彩色图片进行压缩(降维)。
(彩色原图)
同样地,如果降维前作标准化处理,结果是这样的 [代码见附录四]。这里的
依然是保留多少个主成分。
(彩色效果图一)
如果降维前不作标准化处理,结果是这样的 [代码见附录五]。
(彩色效果图二)
彩色图片压缩与灰度图片压缩类似,无论做不做标准化处理,保留的主成分越多,重建的图片越清晰。对于作标准化处理的情形,当我们保留50个主成分的时候,重建的图片已经有一个比较高的清晰度了,此时降维后数据大概是原数据大小的13% [附录一]。同时,比较上面两幅效果图,我们可以看出:降维前进行标准化处理对PCA效果有明显的提升。
上面两小节中,我们了解了降维前对数据进行标准化处理是很重要的。那么,这个是不是可以在PCA的推导过程中体现出来呢?
对于一个
的矩阵
,可以看作是
个样本,
个特征(feature)。对于生物数据而言,样本数量一般都是远小于特征数量的,也就是说
。自然地,我们希望降低特征的数量,将
的矩阵降维到
(
)的新矩阵
,并且让低维空间中的数据尽量继承原始数据中的方差,这样低维空间中的点也可以尽可能分得开。这个从高维到低维的映射过程可以通过
个
维向量完成。这
个
维向量也就是我们通常所说的主成分(低维空间中新的坐标轴)。
首先我们来看看如何找第一个主成分。假设这里的矩阵
已经经过标准化处理,也就是说矩阵
每一列的平均值是0,标准差是1。我们的目标是找到一个
维单位向量
,使得原来矩阵
的
个
维向量
在这个主成分上的得分(坐标)
之间的方差最大。这里不用单位向量也可以,我们的目标是找到一个新的
维向量作为新坐标轴,用单位向量可以简化运算。我们知道一个向量
在单位向量
上的坐标是
,也就是说,
。
也就是说,我们要找的第一主成分
就是
这里的
是矩阵
的一个特征向量,并且是对应于最大特征值
的那个特征向量。具体说明如下:
从(1)式到(2)式用到了
。这一点比较容易证明:
从(10)到(11)用到了矩阵
的每一列平均值为0这个前提假设。从这里可以看出标准化处理数据(normalization)的意义。
从(5)到(6)其实是Rayleigh quotient的一个特例,它显示了对于任意单位向量
,
的最大值为
,这个
是矩阵
最大的特征值;并且此时
就是
对应的特征向量
。具体证明如下。
从基础线性代数我们可以知道,任意一个实对称矩阵,比如
的
,都可以分解为
。对
而言,矩阵
是一个
的正交矩阵,它的所有列构成一组单位正交基,且每一列
都是矩阵
的一个特征向量。矩阵
是一个
的对角矩阵,它的每一个对角线元素
都是矩阵
的一个特征值。并且,特征值
和特征向量
是一一对应的。
在下面的证明过程中,我们对矩阵
中的特征值按照降序排列,也就是使得
。当然,同时也调整矩阵
中列的顺序,使得特征值仍然和特征向量一一对应。
于是,我们可以证明对于任意单位向量
,方差
的最大值是
,且此时
就是
。
从(13)式到(14)式,利用了
是一组基,所以一个
维向量
肯定可以表示为这组基的线性组合
。
从(15)式到(16)式,利用了
单位正交的性质,即
从(17)式到(18)式,因为我们选择了降序排序的特征值,即
。
从(19)式到(20)式,利用了
的性质。因为
是单位向量,所以
到此,我们已经证明了当
是矩阵
最大特征值
对应的特征向量
时(此时,
,
),
取得最大值
。也就是说,当选取
作为第一主成分时,新坐标之间的方差取得最大值
。
当然,得到第一主成分之后,我们可以继续推导第二主成分。当假定第二主成分与第一主成分正交时,我们可以利用上面的推导过程推算出第二主成分就是
(简单来说,当第二主成分与第一主成分正交时,上面的
依然可以分解为
,只是此时
)。剩余的主成分依此类推。
这一小节我们给出了如何找到第一主成分的详细推导过程。从坐标轴的观点看,第一主成分有这样的特点,即在所有
维向量中,原来的样本点在主成分所在坐标轴上的坐标之间的方差最大。不仅如此,在上面的推导中,我们还可以看到标准化处理(normalization)是如何在PCA降维过程中发挥作用的。比如,从(1)式到(2)式(或者说,从(10)到(11))的推导就用到了矩阵
已经经过标准化处理的假定。如果这个假定不成立,则会破坏推导过程,从而减弱PCA的效果,正如我们在图片压缩例子中看到的那样。
在本文中,我们利用PCA降维的方法对图片进行压缩。无论是灰度图片还是彩色图片,我们都发现了PCA降维可以有效地进行压缩,数据可以压缩到原来的20%(灰度图片)和13%(彩色图片)。并且,无论是在灰度图片还是彩色图片的例子中,我们都观察到了降维前进行标准化处理(normalization)可以显著地提升PCA的效果。最后,在推导第一主成分的过程中,我们看到了标准化处理是具体怎么样在PCA中发挥作用的。
将一幅
的图片降维到
(
) 的时候,我们需要保留两个小的矩阵,一个是主成分的矩阵
,以及新的图片数据的矩阵
。所以,如果不考虑占比很小的平均值向量和标准差向量,数据压缩的比率大概是
。
对于灰度图片的压缩,当
,
,
时,数据压缩的比率大概是19.53%。对于彩色图片的压缩,当
,
,
时,数据压缩的比率大概是13.02%。
from PIL import Image
import numpy as np
img_fn = "Lenna_test_image.png"
img = Image.open(img_fn)
# convert to grayscale
gray_img = img.convert('L')
# convert to numpy array
im1 = np.array(gray_img)
# normalization. For each column, mean=0, sd=1
means = np.mean(im1, axis=0).reshape(1, -1)
sds = np.std(im1, axis=0).reshape(1, -1)
im2 = (im1 - means) / sds
# compute the eigenvalues and eigenvectors of {A^T}A
S = np.matmul(im2.T, im2)
W, Q = np.linalg.eig(S)
# sort the eigenvalues and corresponding eigenvectors
# from largest to smallest
w_args = np.flip(np.argsort(W))
Q = Q[:, w_args]
W = W[w_args]
# calculate new scores (coordinates)
C = np.matmul(im2, Q)
k = 50 # CHANGE ME! number of PCs to keep
# reconstruct the image with k PCs
im3 = np.matmul(C[:, :k], Q.T[:k, :])
im3 = im3 * sds + means
im3 = im3.astype('uint8')
Image.fromarray(im3)
from PIL import Image
import numpy as np
img_fn = "Lenna_test_image.png"
img = Image.open(img_fn)
# convert to grayscale
gray_img = img.convert('L')
# convert to numpy array
im1 = np.array(gray_img)
## normalization. For each column, mean=0, sd=1
#means = np.mean(im1, axis=0).reshape(1, -1)
#sds = np.std(im1, axis=0).reshape(1, -1)
#im2 = (im1 - means) / sds
im2 = im1
# compute the eigenvalues and eigenvectors of {A^T}A
S = np.matmul(im2.T, im2)
W, Q = np.linalg.eig(S)
# sort the eigenvalues and corresponding eigenvectors
# from largest to smallest
w_args = np.flip(np.argsort(W))
Q = Q[:, w_args]
W = W[w_args]
# calculate new scores (coordinates)
C = np.matmul(im2, Q)
k = 50 # CHANGE ME! number of PCs to keep
# reconstruct the image with k PCs
im3 = np.matmul(C[:, :k], Q.T[:k, :])
#im3 = im3 * sds + means
im3 = im3.astype('uint8')
Image.fromarray(im3)
from PIL import Image
import numpy as np
img_fn = "Lenna_test_image.png"
img = Image.open(img_fn)
# convert to RGB mode
rgb_img = img.convert('RGB')
# convert to numpy array
im = np.array(rgb_img)
# simply combine the three (R,G,B) channels
im1 = np.hstack((im[:,:,0], im[:,:,1], im[:,:,2]))
# normalization. For each column, mean=0, sd=1
means = np.mean(im1, axis=0).reshape(1, -1)
sds = np.std(im1, axis=0).reshape(1, -1)
im2 = (im1 - means) / sds
# compute the eigenvalues and eigenvectors of {A^T}A
S = np.matmul(im2.T, im2)
W, Q = np.linalg.eig(S)
# sort the eigenvalues and corresponding eigenvectors
# from largest to smallest
w_args = np.flip(np.argsort(W))
Q = Q[:, w_args]
W = W[w_args]
# calculate new scores (coordinates)
C = np.matmul(im2, Q)
k = 50 # CHANGE ME! number of PCs to keep
# reconstruct the image data with k PCs
im3 = np.matmul(C[:, :k], Q.T[:k, :])
im3 = im3 * sds + means
im3 = im3.astype('uint8')
# reconstruct the three (R,G,B) channels
im3_channels = np.hsplit(im3, 3)
im4 = np.zeros_like(im)
for i in range(3):
im4[:,:,i] = im3_channels[i]
Image.fromarray(im4)
from PIL import Image
import numpy as np
img_fn = "Lenna_test_image.png"
img = Image.open(img_fn)
# convert to RGB mode
rgb_img = img.convert('RGB')
# convert to numpy array
im = np.array(rgb_img)
# simply combine the three (R,G,B) channels
im1 = np.hstack((im[:,:,0], im[:,:,1], im[:,:,2]))
## normalization. For each column, mean=0, sd=1
#means = np.mean(im1, axis=0).reshape(1, -1)
#sds = np.std(im1, axis=0).reshape(1, -1)
#im2 = (im1 - means) / sds
im2 = im1
# compute the eigenvalues and eigenvectors of {A^T}A
S = np.matmul(im2.T, im2)
W, Q = np.linalg.eig(S)
# sort the eigenvalues and corresponding eigenvectors
# from largest to smallest
w_args = np.flip(np.argsort(W))
Q = Q[:, w_args]
W = W[w_args]
# calculate new scores (coordinates)
C = np.matmul(im2, Q)
k = 50 # CHANGE ME! number of PCs to keep
# reconstruct the image data with k PCs
im3 = np.matmul(C[:, :k], Q.T[:k, :])
#im3 = im3 * sds + means
im3 = im3.astype('uint8')
# reconstruct the three (R,G,B) channels
im3_channels = np.hsplit(im3, 3)
im4 = np.zeros_like(im)
for i in range(3):
im4[:,:,i] = im3_channels[i]
Image.fromarray(im4)
Lenna图片(参考Wikipedia页面):By Original full portrait: "Playmate of the Month". Playboy Magazine. November 1972, photographed by Dwight Hooker.This 512x512 electronic/mechanical scan of a section of the full portrait: Alexander Sawchuk and two others[1]Permission = Use of this 512x512 scan is "overlooked" and by implication permitted by Playboy.[2]Alexander Sawchuk et al scanned the image and cropped it specifically for distribution for use by image compression researchers, and hold no copyright on it.[1] - The USC-SIPI image database, Fair use, https://en.wikipedia.org/w/index.php?curid=20658476
本文完。(公众号:生信了)