首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >多变量时间序列分类

多变量时间序列分类
EN

Data Science用户
提问于 2017-05-09 08:33:11
回答 4查看 12.1K关注 0票数 10

我有一组由时间序列(8点)组成的数据,约有40维(所以每个时间序列是8乘40)。相应的输出(类别的可能结果)是0或1之一。

,为多维时间序列设计分类器的最佳方法是什么?

我最初的策略是从这些时间序列中提取特征:均值、std、每个维度的最大变化量。我获得了一个数据集,用来训练一个RandomTreeForest。意识到这一点的完全天真,在获得了糟糕的结果后,我现在正在寻找一个更好的模型。

我的线索是:对每个维度进行分类(使用KNN算法和DWT),使用主成分分析( PCA )降低维数,并在多维分类器上使用最终分类器。作为ML的新手,我不知道我是否完全错了。

EN

回答 4

Data Science用户

回答已采纳

发布于 2017-11-15 03:19:48

你走在正确的轨道上。看看计算更多的特征,无论是在时域和频域。只要样本的数量,>>的特性数量,您不太可能过火。有关于类似问题的文献吗?如果是这样的话,那总是提供一个很好的起点。

尝试一个增强的树分类器,如xgboost或LightGBM。它们更容易调优超参数,并提供良好的默认参数结果。随机森林和增强树分类器都可以返回特征重要性,因此您可以看到哪些特征与问题相关。您还可以尝试删除功能以检查任何协方差。

不过,最重要的是,如果您的结果出乎意料地差,请确保您的问题得到了正确的定义。手动检查您的结果,以确保您的管道中没有任何错误。

票数 6
EN

Data Science用户

发布于 2017-09-16 01:54:54

如果您使用Python,有几个包可以自动从您的时间序列中提取数百个或数千个特性,将它们与您的标签关联起来,选择最重要的功能,并为您培训模型。

https://github.com/blue-yonder/tsfresh

https://github.com/rtavenar/tslearn

票数 9
EN

Data Science用户

发布于 2018-01-12 17:37:37

您可以向数据集添加更多功能,如下所示。

  1. 如果您的数据来自高度非线性的过程,您可以尝试nolds包。
  2. 最大,最小,平均,倾斜,峰度,如果可能的话,一些滚动的统计。

我正在做类似的事情,我问了一个相关问题

票数 3
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/18848

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档