首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python AI 教学 | 主成分分析(PCA)原理及其应用

假如你是一家淘宝店店主,你所负责运营的淘宝店2018年全年的流量及交易情况可以看成是一组记录的集合,其中每一天的数据是一条记录,(日期,浏览量,访客数,下单数,成交数,成交金额),这是一个六维的数据,但我们可以发现,“浏览量”和“访客数”往往具有较强的相关关系,而“下单数”和“成交数”也具有较强的相关关系,如果删除其中一个指标,不会丢失太多信息。我们知道,很多机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。在实际机器学习中处理成千上万甚至几十万维的情况也并不罕见,在这种情况下,机器学习的资源消耗是不可接受的,因此我们必须对数据进行降维。但降维意味着信息的丢失,不过鉴于实际数据(如上面所述的淘宝店数据)本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低,这就是我们要介绍的降维方法——PCA(主成分分析法)。

03

Python AI 教学 | 主成分分析(PCA)原理及其应用

假如你是一家淘宝店店主,你所负责运营的淘宝店2018年全年的流量及交易情况可以看成是一组记录的集合,其中每一天的数据是一条记录,(日期,浏览量,访客数,下单数,成交数,成交金额),这是一个六维的数据,但我们可以发现,“浏览量”和“访客数”往往具有较强的相关关系,而“下单数”和“成交数”也具有较强的相关关系,如果删除其中一个指标,不会丢失太多信息。我们知道,很多机器学习算法的复杂度和数据的维数有着密切关系,甚至与维数呈指数级关联。在实际机器学习中处理成千上万甚至几十万维的情况也并不罕见,在这种情况下,机器学习的资源消耗是不可接受的,因此我们必须对数据进行降维。但降维意味着信息的丢失,不过鉴于实际数据(如上面所述的淘宝店数据)本身常常存在的相关性,我们可以想办法在降维的同时将信息的损失尽量降低,这就是我们要介绍的降维方法——PCA(主成分分析法)。

03

数学和统计方法

1、平均数:所有数加在一起求平均 2、中位数:对于有限的数集,可以通过把所有观察值高低排序后找出正中间的一个作为中位数。如果观察值有偶数个,通常取最中间的 两个数值的平均数作为中位数。 3、众数:出现次数最多的那个数 4、加权平均数:加权平均值即将各数值乘以相应的权数,然后加总求和得到总体值,再除以总的单位数。加权平均值的大小不仅取决于 总体中各单位的数值(变量值)的大小,而且取决于各数值出现的次数(频数),由于各数值出现的次数对其在平均数中的影响起着权衡 轻重的作用,因此叫做权数。 因为加权平均值是根据权数的不同进行的平均数的计算,所以又叫加权平均数。在日常生活中,人们常常 把“权数”理解为事物所占的“权重” x占a% y占b% z占c% n占m% 加权平均数=(ax+by+cz+mn)/(x+y+z+n)

01
领券