我有一组由时间序列(8点)组成的数据,约有40维(所以每个时间序列是8乘40)。相应的输出(类别的可能结果)是0或1之一。
我最初的策略是从这些时间序列中提取特征:均值、std、每个维度的最大变化量。我获得了一个数据集,用来训练一个RandomTreeForest。意识到这一点的完全天真,在获得了糟糕的结果后,我现在正在寻找一个更好的模型。
我的线索是:对每个维度进行分类(使用KNN算法和DWT),使用主成分分析( PCA )降低维数,并在多维分类器上使用最终分类器。作为ML的新手,我不知道我是否完全错了。
发布于 2017-11-15 03:19:48
你走在正确的轨道上。看看计算更多的特征,无论是在时域和频域。只要样本的数量,>>的特性数量,您不太可能过火。有关于类似问题的文献吗?如果是这样的话,那总是提供一个很好的起点。
尝试一个增强的树分类器,如xgboost或LightGBM。它们更容易调优超参数,并提供良好的默认参数结果。随机森林和增强树分类器都可以返回特征重要性,因此您可以看到哪些特征与问题相关。您还可以尝试删除功能以检查任何协方差。
不过,最重要的是,如果您的结果出乎意料地差,请确保您的问题得到了正确的定义。手动检查您的结果,以确保您的管道中没有任何错误。
发布于 2017-09-16 01:54:54
如果您使用Python,有几个包可以自动从您的时间序列中提取数百个或数千个特性,将它们与您的标签关联起来,选择最重要的功能,并为您培训模型。
发布于 2018-01-12 17:37:37
https://datascience.stackexchange.com/questions/18848
复制相似问题