首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >如何解释主成分分析近似的原始时间序列?

如何解释主成分分析近似的原始时间序列?
EN

Data Science用户
提问于 2021-03-19 11:00:11
回答 1查看 29关注 0票数 1

我读过一些关于PCA应用于时间序列的文章,但仍然有些困惑,我有以下问题(假设我正在处理50个行业返回的时间序列,我想使用聚类算法将它们分成几个组):

  1. 假设我从相关矩阵中计算了特征值和特征向量,发现前20个特征值占总特征值的85%,然后用这20个特征值来逼近原来的时间序列。我知道如果我选择所有的特征值,那么我可以得到相同的原始时间序列,但是如果我具体选择其中的20个,那么我失去了什么信息呢?这样做的目的是什么?
  2. 我发现一些帖子说我们总是可以放弃第一个主成分(意思是我们不使用它),为什么我们可以这样做呢?
  3. 我能否将每个特征值解释为市场的一个趋势,例如第一个主成分,我是否可以根据对应的特征向量的符号,推导出相应的产业是在同一方向上,还是与市场趋势不同,如果是这样,我是否可以通过使用前几个主成分的特征向量来对所有行业适用k-均值,这是否有意义?

欢迎任何暗示或想法,谢谢。

EN

回答 1

Data Science用户

发布于 2021-03-19 12:56:02

通常,在Stack溢出或任何其他姐妹网站上询问任何问题的标准是,除非它们非常相似,否则只能问一个问题,而在这种情况下似乎并非如此。

为了回答您的问题,X^TX被称为样本协方差(或相关)矩阵,其中X是维数(m,d)的数据矩阵。因此,生成的矩阵具有(d,d)维数,其中d是特征空间的维数。

正如您所说的,这个矩阵是通过一个内胚层得到w\cap w^{-1},其中\cap是一个特征值的对角线矩阵,按递减顺序排列,w是根据相应的特征值叠加的归一化特征向量。人们可能想选择一些k维数的原因是为了降低维数。

降维带来了多方面的好处--降低空间复杂度,加快计算速度等。当你专门谈论时间序列时,问题就出现了。PCA、ICA不考虑可能导致数据存在次优预测的时间相依性。解决这一问题的方法有很多种,人们可能希望使用可预测分量分析自动编码器等来确保它们不仅获得PCA所提供的好处,而且还能确保避免PCA的问题。

为了回答第二个问题,我不确定原因,但是人们可能想要放弃第一个主体,因为它是在最大方差的方向,也就是说,它在这个方向上变化最大。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/90871

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档