有趣有用的PCA

一只羊

发布于 2021-10-13 11:42:53

9390

发布于 2021-10-13 11:42:53

文章被收录于专栏：生信了

PCA是数据降维的经典方法，本文给出了一个将PCA用于图片压缩的例子，并探索了标准化处理（normalization）对PCA的影响。文末还讨论了PCA推导第一主成分的过程。

PCA (Principal component analysis，主成分分析) 是一个经典的数据降维方法，可以将高维数据映射到低维空间中，使得低维空间中点在新坐标轴（主成分）上的坐标间方差尽可能大。PCA被广泛应用于各行各业的数据分析，其中当然也包括生物数据的分析。

讲解PCA的文章数不胜数，本文旨在作为一个学习笔记，不对PCA的原理和应用作过多重复的介绍；而是先给出一个将PCA用于图片压缩的例子，从而能够直观地感受PCA的效果；然后结合这个例子对PCA的推导做一些讨论。

PCA压缩灰度图片

我们可以将图片看作是一个

n \times p

（灰度空间）或者

n \times p \times 3

（RGB空间）的数组。以灰度图片为例，可以利用PCA将

n \times p

的矩阵降维成

n \times l

（

l < p

）的矩阵，从而达到图片压缩的效果。

我们选择经典图片Lenna作展示 [来源参考附录六]，Lenna图片的大小是

512 \times 512

。在这个例子中，我们首先将彩色的图片转化为灰度图片。

（灰度原图）

我们看看在降维之前先对数据进行标准化（normalization）处理的话，会有怎样的结果 [代码见附录二]。所谓标准化处理，做过PCA的朋友应该很熟悉，就是将矩阵的每一列的数据进行缩放，使得每一列的平均值是0，标准差是1。

这里的

就是保留多少个主成分。

（灰度效果图一）

如果降维前不做标准化处理，结果是这样的 [代码见附录三]。

（灰度效果图二）

很明显地，无论做不做标准化处理，保留的主成分越多，重建的图片越清晰。对于作标准化处理的情形，当我们保留50个主成分的时候，重建的图片已经有一个比较高的清晰度了，此时降维后数据大概是原数据大小的20% [附录一]。同时，比较上面两幅效果图，我们可以看出：降维前进行标准化处理对PCA效果有明显的提升。

PCA压缩RGB图片

当然，我们也可以直接对彩色图片进行压缩（降维）。

（彩色原图）

同样地，如果降维前作标准化处理，结果是这样的 [代码见附录四]。这里的

依然是保留多少个主成分。

（彩色效果图一）

如果降维前不作标准化处理，结果是这样的 [代码见附录五]。

（彩色效果图二）

彩色图片压缩与灰度图片压缩类似，无论做不做标准化处理，保留的主成分越多，重建的图片越清晰。对于作标准化处理的情形，当我们保留50个主成分的时候，重建的图片已经有一个比较高的清晰度了，此时降维后数据大概是原数据大小的13% [附录一]。同时，比较上面两幅效果图，我们可以看出：降维前进行标准化处理对PCA效果有明显的提升。

PCA推导第一主成分

上面两小节中，我们了解了降维前对数据进行标准化处理是很重要的。那么，这个是不是可以在PCA的推导过程中体现出来呢？

对于一个

n \times p

的矩阵

\mathbf{A}

，可以看作是

个样本，

个特征（feature）。对于生物数据而言，样本数量一般都是远小于特征数量的，也就是说

n \ll p

。自然地，我们希望降低特征的数量，将

n \times p

的矩阵降维到

n \times l

（

l < p

）的新矩阵

\mathbf{T}

，并且让低维空间中的数据尽量继承原始数据中的方差，这样低维空间中的点也可以尽可能分得开。这个从高维到低维的映射过程可以通过

个

维向量完成。这

个

维向量也就是我们通常所说的主成分（低维空间中新的坐标轴）。

首先我们来看看如何找第一个主成分。假设这里的矩阵

\mathbf{A}

已经经过标准化处理，也就是说矩阵

\mathbf{A}

每一列的平均值是0，标准差是1。我们的目标是找到一个

维单位向量

\mathbf{w_1}

，使得原来矩阵

\mathbf{A}

的

个

维向量

\mathbf{a}_i, i=1,2,\ldots,n

在这个主成分上的得分（坐标）

t_i,i=1,2,\ldots,n

之间的方差最大。这里不用单位向量也可以，我们的目标是找到一个新的

维向量作为新坐标轴，用单位向量可以简化运算。我们知道一个向量

\mathbf{a}_i

在单位向量

\mathbf{w_1}

上的坐标是

\mathbf{a}_i \cdot \mathbf{w_1}

，也就是说，

t_i = \mathbf{a}_i \cdot \mathbf{w_1}

。

也就是说，我们要找的第一主成分

\mathbf{w_1}

就是

\begin{aligned} \displaystyle \mathbf{w_1} &= \mathop{\arg\max}\limits_{\mathbf{w}} \sum_{i=1}^{n} (t_i - \bar{t})^2 \qquad \qquad \text{(1)} \\ &= \mathop{\arg\max}\limits_{\mathbf{w}} \sum_{i=1}^{n} {t_i}^2 \qquad \qquad \qquad \ \text{(2)} \\ &= \mathop{\arg\max}\limits_{\mathbf{w}} \sum_{i=1}^{n} (\mathbf{a}_i \cdot \mathbf{w})^2 \qquad \quad \ \ \ \text{(3)} \\ &= \mathop{\arg\max}\limits_{\mathbf{w}} \|\mathbf{A}\mathbf{w}\|^2 \qquad \qquad \quad \ \ \, \text{(4)} \\ &= \mathop{\arg\max}\limits_{\mathbf{w}} \mathbf{w}^{\rm{T}}\mathbf{A}^{\rm{T}}\mathbf{A}\mathbf{w} \qquad \qquad \ \text{(5)} \\ &= \mathbf{q}_1 \qquad \qquad \qquad \qquad \qquad \quad \ \, \text{(6)} \end{aligned}

这里的

\mathbf{q}_1

是矩阵

\mathbf{A}^{\rm{T}}\mathbf{A}

的一个特征向量，并且是对应于最大特征值

\lambda_1

的那个特征向量。具体说明如下：

从(1)式到(2)式用到了

\bar{t}=0

。这一点比较容易证明：

\begin{aligned} n\bar{t} &= \sum_{i=1}^n t_i \qquad \qquad \text{(7)} \\ &= \mathbf{1}^{\rm{T}} \cdot \mathbf{t} \qquad \quad \ \ \ \ \text{(8)} \\ &= \mathbf{1}^{\rm{T}} (\mathbf{A}\mathbf{w}) \qquad \ \ \, \text{(9)} \\ &= (\mathbf{1}^{\rm{T}}\mathbf{A})\mathbf{w} \qquad \ \ \, \text{(10)} \\ &= \mathbf{0}^{\rm{T}} \cdot \mathbf{w} \qquad \quad \ \ \text{(11)} \\ &= 0 \qquad \qquad \quad \ \ \ \text{(12)} \end{aligned}

从(10)到(11)用到了矩阵

\mathbf{A}

的每一列平均值为0这个前提假设。从这里可以看出标准化处理数据（normalization）的意义。

从(5)到(6)其实是Rayleigh quotient的一个特例，它显示了对于任意单位向量

\mathbf{w}

，

\mathbf{w}^{\rm{T}}\mathbf{A}^{\rm{T}}\mathbf{A}\mathbf{w}

的最大值为

\lambda_1

，这个

\lambda_1

是矩阵

\mathbf{A}^{\rm{T}}\mathbf{A}

最大的特征值；并且此时

\mathbf{w}

就是

\lambda_1

对应的特征向量

\mathbf{q}_1

。具体证明如下。

从基础线性代数我们可以知道，任意一个实对称矩阵，比如

p \times p

的

\mathbf{A}^{\rm{T}}\mathbf{A}

，都可以分解为

\mathbf{Q}\mathbf{\Sigma}\mathbf{Q}^{\rm{T}}

。对

\mathbf{A}^{\rm{T}}\mathbf{A}

而言，矩阵

\mathbf{Q}

是一个

p \times p

的正交矩阵，它的所有列构成一组单位正交基，且每一列

\mathbf{q}_i,i=1,2,\ldots,p

都是矩阵

\mathbf{A}^{\rm{T}}\mathbf{A}

的一个特征向量。矩阵

\mathbf{\Sigma}

是一个

p \times p

的对角矩阵，它的每一个对角线元素

\lambda_i,i=1,2,\ldots,p

都是矩阵

\mathbf{A}^{\rm{T}}\mathbf{A}

的一个特征值。并且，特征值

\lambda_i

和特征向量

\mathbf{q}_i

是一一对应的。

在下面的证明过程中，我们对矩阵

\mathbf{\Sigma}

中的特征值按照降序排列，也就是使得

\lambda_1 \ge \lambda_2 \ge \ldots \ge \lambda_p

。当然，同时也调整矩阵

\mathbf{Q}

中列的顺序，使得特征值仍然和特征向量一一对应。

于是，我们可以证明对于任意单位向量

\mathbf{w}

，方差

\mathbf{w}^{\rm{T}}\mathbf{A}^{\rm{T}}\mathbf{A}\mathbf{w}

的最大值是

\lambda_1

，且此时

\mathbf{w}

就是

\mathbf{q}_1

。

\begin{aligned} \mathbf{w}^{\rm{T}}\mathbf{A}^{\rm{T}}\mathbf{A}\mathbf{w} &= \mathbf{w}^{\rm{T}}\mathbf{Q}\mathbf{\Sigma}\mathbf{Q}^{\rm{T}}\mathbf{w} \qquad \qquad \qquad \text{(13)} \\ &=(\sum_{i=1}^p c_i\mathbf{q}_i^{\rm{T}}) \begin{bmatrix} \mathbf{q}_1, \ldots,\mathbf{q}_p \end{bmatrix} \begin{bmatrix} \lambda_1 \\ & \ddots \\ & & \lambda_p \end{bmatrix} \begin{bmatrix} \mathbf{q}_1^{\rm{T}} \\ \vdots \\ \mathbf{q}_p^{\rm{T}} \end{bmatrix} (\sum_{i=1}^p c_i\mathbf{q}_i) \qquad \text{(14)} \\ &= \begin{bmatrix} \displaystyle \sum_{i=1}^p c_i\mathbf{q}_i^{\rm{T}} \mathbf{q}_1, \ldots, \sum_{i=1}^p c_i\mathbf{q}_i^{\rm{T}} \mathbf{q}_p \end{bmatrix} \begin{bmatrix} \lambda_1 \\ & \ddots \\ & & \lambda_p \end{bmatrix} \begin{bmatrix} \displaystyle \sum_{i=1}^p \mathbf{q}_1^{\rm{T}} c_i\mathbf{q}_i \\ \vdots \\ \displaystyle \sum_{i=1}^p \mathbf{q}_p^{\rm{T}} c_i\mathbf{q}_i \end{bmatrix} \quad \text{(15)} \\ &= \begin{bmatrix} c_1, \ldots, c_p \end{bmatrix} \begin{bmatrix} \lambda_1 \\ & \ddots \\ & & \lambda_p \end{bmatrix} \begin{bmatrix} c_1 \\ \vdots \\ c_p \end{bmatrix} \qquad \text{(16)} \\ &= \sum_{i=1}^p \lambda_i c_i^2 \qquad \text{(17)} \\ &\le \sum_{i=1}^p \lambda_1 c_i^2 \qquad \text{(18)} \\ &= \lambda_1 \sum_{i=1}^p c_i^2 \qquad \text{(19)} \\ &= \lambda_1 \qquad \qquad \ \ \text{(20)} \end{aligned}

从(13)式到(14)式，利用了

\mathbf{q}_i,i=1,2,\ldots,p

是一组基，所以一个

维向量

\mathbf{w}

肯定可以表示为这组基的线性组合

\sum_{i=1}^p c_i\mathbf{q}_i

。

从(15)式到(16)式，利用了

\mathbf{q}_i,i=1,2,\ldots,p

单位正交的性质，即

\mathbf{q}_i \cdot \mathbf{q}_j = \begin{cases} 0, & \text{if $i \neq j$} \\ 1, & \text{if $i = j$} \\ \end{cases}

从(17)式到(18)式，因为我们选择了降序排序的特征值，即

\lambda_1 \ge \lambda_i

。

从(19)式到(20)式，利用了

\sum_{i=1}^p c_i^2 = 1

的性质。因为

\mathbf{w}

是单位向量，所以

\begin{aligned} 1 &= \mathbf{w}^{\rm{T}}\mathbf{w} \\ &= \sum_{i=1}^p c_i\mathbf{q}_i^{\rm{T}}\sum_{j=1}^p c_j\mathbf{q}_j \\ &= \sum_{i=1}^p c_i^2 \end{aligned}

到此，我们已经证明了当

\mathbf{w}

是矩阵

\mathbf{A}^{\rm{T}}\mathbf{A}

最大特征值

\lambda_1

对应的特征向量

\mathbf{q}_1

时（此时，

c_1=1

，

c_i=0,i=2,3,\ldots,p

），

\mathbf{w}^{\rm{T}}\mathbf{A}^{\rm{T}}\mathbf{A}\mathbf{w}

取得最大值

\lambda_1

。也就是说，当选取

\mathbf{q}_1

作为第一主成分时，新坐标之间的方差取得最大值

\lambda_1

。

当然，得到第一主成分之后，我们可以继续推导第二主成分。当假定第二主成分与第一主成分正交时，我们可以利用上面的推导过程推算出第二主成分就是

\mathbf{q}_2

（简单来说，当第二主成分与第一主成分正交时，上面的

\mathbf{w}

依然可以分解为

\sum_{i=1}^p c_i\mathbf{q}_i

，只是此时

c_1=0

）。剩余的主成分依此类推。

这一小节我们给出了如何找到第一主成分的详细推导过程。从坐标轴的观点看，第一主成分有这样的特点，即在所有

维向量中，原来的样本点在主成分所在坐标轴上的坐标之间的方差最大。不仅如此，在上面的推导中，我们还可以看到标准化处理（normalization）是如何在PCA降维过程中发挥作用的。比如，从(1)式到(2)式（或者说，从(10)到(11)）的推导就用到了矩阵

\mathbf{A}

已经经过标准化处理的假定。如果这个假定不成立，则会破坏推导过程，从而减弱PCA的效果，正如我们在图片压缩例子中看到的那样。

小结

在本文中，我们利用PCA降维的方法对图片进行压缩。无论是灰度图片还是彩色图片，我们都发现了PCA降维可以有效地进行压缩，数据可以压缩到原来的20%（灰度图片）和13%（彩色图片）。并且，无论是在灰度图片还是彩色图片的例子中，我们都观察到了降维前进行标准化处理（normalization）可以显著地提升PCA的效果。最后，在推导第一主成分的过程中，我们看到了标准化处理是具体怎么样在PCA中发挥作用的。

附录：相关代码和参考来源

附录一：数据压缩比率的计算

将一幅

n \times p

的图片降维到

n \times l

(

l < p

) 的时候，我们需要保留两个小的矩阵，一个是主成分的矩阵

p \times l

，以及新的图片数据的矩阵

n \times l

。所以，如果不考虑占比很小的平均值向量和标准差向量，数据压缩的比率大概是

(p \times l + n \times l)/(n \times p)

。

对于灰度图片的压缩，当

n=512

，

p=512

，

l=50

时，数据压缩的比率大概是19.53%。对于彩色图片的压缩，当

n=512

，

p=512 \times 3

，

l=50

时，数据压缩的比率大概是13.02%。

附录二：灰度图片降维前进行标准化处理的代码

from PIL import Image
import numpy as np

img_fn = "Lenna_test_image.png"
img = Image.open(img_fn)

# convert to grayscale
gray_img = img.convert('L')

# convert to numpy array
im1 = np.array(gray_img)

# normalization. For each column, mean=0, sd=1
means = np.mean(im1, axis=0).reshape(1, -1)
sds = np.std(im1, axis=0).reshape(1, -1)
im2 = (im1 - means) / sds

# compute the eigenvalues and eigenvectors of {A^T}A
S = np.matmul(im2.T, im2)
W, Q = np.linalg.eig(S)

# sort the eigenvalues and corresponding eigenvectors
# from largest to smallest
w_args = np.flip(np.argsort(W))
Q = Q[:, w_args]
W = W[w_args]

# calculate new scores (coordinates)
C = np.matmul(im2, Q)

k = 50   # CHANGE ME! number of PCs to keep

# reconstruct the image with k PCs
im3 = np.matmul(C[:, :k], Q.T[:k, :])
im3 = im3 * sds + means
im3 = im3.astype('uint8')
Image.fromarray(im3)

附录三：灰度图片降维前不进行标准化处理的代码

from PIL import Image
import numpy as np

img_fn = "Lenna_test_image.png"
img = Image.open(img_fn)

# convert to grayscale
gray_img = img.convert('L')

# convert to numpy array
im1 = np.array(gray_img)

## normalization. For each column, mean=0, sd=1
#means = np.mean(im1, axis=0).reshape(1, -1)
#sds = np.std(im1, axis=0).reshape(1, -1)
#im2 = (im1 - means) / sds
im2 = im1

# compute the eigenvalues and eigenvectors of {A^T}A
S = np.matmul(im2.T, im2)
W, Q = np.linalg.eig(S)

# sort the eigenvalues and corresponding eigenvectors
# from largest to smallest
w_args = np.flip(np.argsort(W))
Q = Q[:, w_args]
W = W[w_args]

# calculate new scores (coordinates)
C = np.matmul(im2, Q)

k = 50   # CHANGE ME! number of PCs to keep

# reconstruct the image with k PCs
im3 = np.matmul(C[:, :k], Q.T[:k, :])
#im3 = im3 * sds + means
im3 = im3.astype('uint8')
Image.fromarray(im3)

附录四：彩色图片降维前进行标准化处理的代码

from PIL import Image
import numpy as np

img_fn = "Lenna_test_image.png"
img = Image.open(img_fn)

# convert to RGB mode
rgb_img = img.convert('RGB')

# convert to numpy array
im = np.array(rgb_img) 

# simply combine the three (R,G,B) channels
im1 = np.hstack((im[:,:,0], im[:,:,1], im[:,:,2]))

# normalization. For each column, mean=0, sd=1
means = np.mean(im1, axis=0).reshape(1, -1)
sds = np.std(im1, axis=0).reshape(1, -1)
im2 = (im1 - means) / sds

# compute the eigenvalues and eigenvectors of {A^T}A
S = np.matmul(im2.T, im2)
W, Q = np.linalg.eig(S)

# sort the eigenvalues and corresponding eigenvectors
# from largest to smallest
w_args = np.flip(np.argsort(W))
Q = Q[:, w_args]
W = W[w_args]

# calculate new scores (coordinates)
C = np.matmul(im2, Q)

k = 50   # CHANGE ME! number of PCs to keep

# reconstruct the image data with k PCs
im3 = np.matmul(C[:, :k], Q.T[:k, :])
im3 = im3 * sds + means
im3 = im3.astype('uint8')

# reconstruct the three (R,G,B) channels
im3_channels = np.hsplit(im3, 3)
im4 = np.zeros_like(im)
for i in range(3):
    im4[:,:,i] = im3_channels[i]
Image.fromarray(im4)

附录五：彩色图片降维前不进行标准化处理的代码

from PIL import Image
import numpy as np

img_fn = "Lenna_test_image.png"
img = Image.open(img_fn)

# convert to RGB mode
rgb_img = img.convert('RGB')

# convert to numpy array
im = np.array(rgb_img) 

# simply combine the three (R,G,B) channels
im1 = np.hstack((im[:,:,0], im[:,:,1], im[:,:,2]))

## normalization. For each column, mean=0, sd=1
#means = np.mean(im1, axis=0).reshape(1, -1)
#sds = np.std(im1, axis=0).reshape(1, -1)
#im2 = (im1 - means) / sds
im2 = im1

# compute the eigenvalues and eigenvectors of {A^T}A
S = np.matmul(im2.T, im2)
W, Q = np.linalg.eig(S)

# sort the eigenvalues and corresponding eigenvectors
# from largest to smallest
w_args = np.flip(np.argsort(W))
Q = Q[:, w_args]
W = W[w_args]

# calculate new scores (coordinates)
C = np.matmul(im2, Q)

k = 50   # CHANGE ME! number of PCs to keep

# reconstruct the image data with k PCs
im3 = np.matmul(C[:, :k], Q.T[:k, :])
#im3 = im3 * sds + means
im3 = im3.astype('uint8')

# reconstruct the three (R,G,B) channels
im3_channels = np.hsplit(im3, 3)
im4 = np.zeros_like(im)
for i in range(3):
    im4[:,:,i] = im3_channels[i]
Image.fromarray(im4)

附录六：参考来源

Lenna图片（参考Wikipedia页面）：By Original full portrait: "Playmate of the Month". Playboy Magazine. November 1972, photographed by Dwight Hooker.This 512x512 electronic/mechanical scan of a section of the full portrait: Alexander Sawchuk and two others[1]Permission = Use of this 512x512 scan is "overlooked" and by implication permitted by Playboy.[2]Alexander Sawchuk et al scanned the image and cropped it specifically for distribution for use by image compression researchers, and hold no copyright on it.[1] - The USC-SIPI image database, Fair use, https://en.wikipedia.org/w/index.php?curid=20658476

本文完。（公众号：生信了）

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2021-10-03，如有侵权请联系 cloudcommunity@tencent.com 删除

数据分析

文件存储

本文分享自生信了微信公众号，前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

数据分析

文件存储

登录后参与评论

0 条评论

热度