我是一个超级足球迷,对机器学习也很感兴趣。作为我的ML课程的一个项目,我正在尝试构建一个模型,该模型将根据主队和客队的名称来预测主队获胜的机会。(我查询我的数据集,并根据这两支球队之前的比赛创建数据点)。
我有几个赛季所有球队的数据,但我有以下问题,我想要一些建议。英超联赛有20支球队在主客场比赛(一个赛季共380场比赛)。因此,每个赛季,任何两支球队只有两场比赛。
我有过去10+年的数据,结果是两个团队的2*10=20数据点。然而,我不想超过3年,因为我相信球队会随着时间的推移而发生相当大的变化(ManCity,利物浦),这只会给系统带来更多的错误。
因此,对于每对团队,这只会产生大约6-8个数据点。然而,我确实为每个数据点提供了几个特征(最高可达20+),比如全职目标,半场目标,传球,投篮,黄色,红色等等,所以我可以包括最近的状态,最近的主场状态,最近的客场状态等。
然而,只有6-8个数据点可供训练的想法在我看来是不正确的。有没有关于如何解决这个问题的想法?(如果这首先是一个问题,即)
谢谢!
编辑: FWIW,这里有我的报告的链接,这是我在项目完成时编写的报告。https://www.dropbox.com/s/ec4a66ytfkbsncz/report.pdf。这不是‘伟大’的东西,但我认为我设法引出的一些观察结果相当酷(比如我的预测对德甲非常有效,因为拜仁一直都能赢得联赛冠军)。
发布于 2013-03-20 22:26:13
这是一个有趣的问题,我不认为它有一个独特的解决方案。但是,如果我处在你的位置,我可以尝试几件小事。
我和你一样,担心每节课6-8个点的数据太少,无法建立一个可靠的模型。因此,我会尝试以不同的方式对问题进行建模。为了每个班级有更多的数据,而不是20个班级,我将只有两个(主场/客场),我将添加两个功能,一个用于主队,另一个用于客队。在这种设置中,您仍然可以预测哪支球队将获胜,无论它是主场还是客场,并且您的问题有更多的数据来产生结果。
另一个想法是从其他欧洲联盟获取数据。既然现在团队是一个特征而不是一个类,它应该不会给你的模型增加太多的噪音,你可以从额外的数据中受益(假设这些特征在另一个联盟中有效)。
发布于 2015-02-09 21:22:57
我有一些类似的系统-源数据的一个很好的基础是football-data.co.uk。我已经为每个联赛使用了过去的N个赛季,并建立了一个模型(相信我,超过3年是必须的!)。取决于你的标准函数-如果标准是最佳拟合或最大利润,你可以建立自己的预测模型。
要知道的一件非常好的事情是,每个联赛都是不同的,而且博彩公司给出的最受欢迎的主场赔率也不同于第五届英超,在那里你可以找到真正有价值的赔率。
在此基础上,您可以编译有趣的模型,例如betting tips,以在特定的比赛中击败博彩公司,使用您的模式并进行价值下注。或者你可以尝试尽可能多地追逐中奖提示,但可能会赚得更少(抽奖会赚很多钱,即使抽奖的次数较少)。
希望我给了你一些想法,更多的请随时询问。
发布于 2014-02-26 10:19:30
不知道这是否仍然有帮助,但是像全时目标,半场目标,传球,投篮,黄色,红色等特征是你想要分类的新比赛没有的特征。
即:缺阵球员的数量(由于受伤/红牌),每支球队在比赛前的连胜/平局/失利的数量,主队(已经提到过),在最近几场比赛中主场和客场的进球数等。
有6-8场比赛才是真正的问题。这个数据集非常小,会有很多过拟合,但如果你使用我提到的那些特征,我认为你也可以使用较旧的数据。
https://stackoverflow.com/questions/15513640
复制相似问题