• 为了保证你在浏览本网站时有着更好的体验,建议使用类似Chrome、Firefox之类的浏览器~~
    • 如果你喜欢本站的内容何不Ctrl+D收藏一下呢,与大家一起分享各种编程知识~
    • 本网站研究机器学习、计算机视觉、模式识别~当然不局限于此,生命在于折腾,何不年轻时多折腾一下

机器学习导论–PCA理论

ml admin 2年前 (2017-01-11) 1121次浏览 0个评论 扫描二维码
PCA 理论基础

要解释为什么协方差矩阵的特征向量就是 k 维理想特征,我看到的有三个理论:分别是最大方差理论、最小错误理论和坐标轴相关度理论。这里简单探讨前两种,最后一种在讨论 PCA 意义时简单概述。

 最大方差理论

在信号处理中认为信号具有较大的方差,噪声有较小的方差,信噪比就是信号与噪声的方差比,越大越好。如前面的图,样本在横轴上的投影方差较大,在纵轴上的投影方差较小,那么认为纵轴上的投影是由噪声引起的。

因此我们认为,最好的 k 维特征是将 n 维样本点转换为 k 维后,每一维上的样本方差都很大。

比如下图有 5 个样本点:(已经做过预处理,均值为 0,特征方差归一)在之前的文章中就提过数据中心化处理详情可以参考数据中心化

clip_image026[4]

下面将样本投影到某一维上,这里用一条过原点的直线表示(前处理的过程实质是将原点移到样本点的中心点)。

clip_image028[4]

假设我们选择两条不同的直线做投影,那么左右两条中哪个好呢?根据我们之前的方差最大化理论,左边的好,因为投影后的样本点之间方差最大。

这里先解释一下投影的概念:

QQ 截图未命名

红色点表示样例clip_image037[14],蓝色点表示clip_image037[15]在 u 上的投影,u 是直线的斜率也是直线的方向向量,而且是单位向量。蓝色点是clip_image037[16]在 u 上的投影点,离原点的距离是clip_image039[4](即clip_image030[4]或者clip_image041[4])由于这些样本点(样例)的每一维特征均值都为 0,因此投影到 u 上的样本点(只有一个到原点的距离值)的均值仍然是 0。

回到上面左右图中的左图,我们要求的是最佳的 u,使得投影后的样本点方差最大。

由于投影后均值为 0,因此方差为:

clip_image042[4]

中间那部分很熟悉啊,不就是样本特征的协方差矩阵么(clip_image037[17]的均值为 0,一般协方差矩阵都除以 m-1,这里用 m)。

clip_image044[10]来表示clip_image046[4]clip_image048[6]表示clip_image050[4],那么上式写作

clip_image052[4] 

由于 u 是单位向量,即clip_image054[4],上式两边都左乘 u 得,clip_image056[4]

clip_image058[4]

We got it!clip_image044[11]就是clip_image048[7]的特征值,u 是特征向量。最佳的投影直线是特征值clip_image044[12]最大时对应的特征向量,其次是clip_image044[13]第二大对应的特征向量,依次类推。

因此,我们只需要对协方差矩阵进行特征值分解,得到的前 k 大特征值对应的特征向量就是最佳的 k 维新特征,而且这 k 维新特征是正交的。得到前 k 个 u 以后,样例clip_image037[18]通过以下变换可以得到新的样本。

clip_image059[4]

其中的第 j 维就是clip_image037[19]clip_image061[4]上的投影。

通过选取最大的 k 个 u,使得方差较小的特征(如噪声)被丢弃。


Deeplearn, 版权所有丨如未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明机器学习导论–PCA 理论
喜欢 (0)
admin
关于作者:

您必须 登录 才能发表评论!