首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >对带有timeseries行为的数据建模的交叉验证分割

对带有timeseries行为的数据建模的交叉验证分割
EN

Data Science用户
提问于 2021-09-14 15:37:58
回答 1查看 127关注 0票数 1

背景:我有一个每月生成的数据集(它类似于每个月包含卡片人口学和交易的卡片数据,并且可以在数据系列的中间添加新的帐户)。根据这些历史数据,我需要建立一个分类模型来预测下个月的二进制标签。

问:哪一种更好的交叉验证分割类型,可以用来得到一个公平的模型分数评估(而不是偏见和低方差)?为了表明这一点,让我们花15个月的培训数据,需要对模型进行5倍交叉验证分割的超调。我下面有两种选择,但如果你有其他的,那也没关系。

1.保留一种类型

的时间序列

  • 第1部分:培训%1%2%3%4%5%6%7%8%9 10,测试11
  • 第2部分:培训1 2 3 4 5 6 7 8 9 10 11,测试12
  • 第3部分:培训1 2 3 4 5 6 7 10 11 12,测试13
  • 第4部分:培训1 2 3 4 5 6 7 8 10 11 12 13,测试14
  • 第5部分:培训1 2 3 4 5 6 7 9 10 11 12 13 14,测试15

2.休假类型为

的时间序列

  • 第1部分:培训%1%2%3%4%5%6%7%8%9 10,测试11 12 13 14 15
  • 第2部分:培训1 2 3 4 5 6 7 8 9 10 11,测试12 13 14 15
  • 第3部分:培训1 2 3 4 5 6 7 10 11 12,测试13 14 15
  • 第4部分:培训1 2 3 4 5 6 7 8 10 11 12 13,测试14 .15
  • 第5部分:培训1 2 3 4 5 6 7 9 10 11 12 13 14,测试15

谢谢你的回答,非常感谢你的回复。

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-09-14 16:49:12

由于您希望构建基于时间顺序表格数据的二进制分类器,我看到了两种可能的方法:

  1. 正如您建议的那样,将数据集拆分为有序的列车测试折叠,这样您就可以在每个时间间隔内再现具有历史数据集和测试(以及稍后的评估)集的“真实”情况;您可以使用学习TimeSeriesSplit来获得这种类型的拆分,这与您提议的类似,但始终具有相同的测试集数据量:
  1. 将您的数据集重组为一个常见的分类问题,其中每个样本行都有一些聚合信息(例如,对于一个客户),例如平均、最小、最大.客户端属性和二进制标签的值;在此框架下,应用k折叠(10折叠是一个常见的选项)交叉验证策略,您也可以签入这个答案

顺便说一句,你的模型应该达到一个良好的偏差-方差权衡,而不是一个完美的“无偏见”模型。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/102078

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档