首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >经典体育赛事预测

经典体育赛事预测
EN

Data Science用户
提问于 2021-01-03 23:53:01
回答 1查看 28关注 0票数 0

所以,我目前正在学习机器学习和数据分析。我为自己制造了一个问题,就是:

将赢得一场足球比赛

现在,我缩小了它作为一个Binary Classification problem,因为我只想知道谁将是一场比赛的赢家。

为此,我有一些包含以下数据点的数据:

  • 一队
  • 第二队
  • 持续时间
  • 目标(一队)
  • 目标(第二队)
  • 胜利者

现在,这就是问题的开始(至少对我来说),我不确定该为我的模型选择哪些特性,也不确定如何管理数据。

假设我有两支球队在比赛(利物浦对切尔西),现在我在所有比赛中都有5000分的数据,但是在利物浦和切尔西的比赛中,只有82分左右。我应该使用哪个数据集?

同时,有时他们在数据集中的位置也会发生变化,这意味着有时候利物浦是Team One,有时切尔西是Team One,这有什么关系吗?还是我应该处理数据集,使其始终匹配某一位置的球队?

一般来说,训练我的模特最好的方法是什么?我是应该使用只包含这两支球队之间的比赛的小数据集,还是应该进行所有的比赛?

对于初学者的问题,我很抱歉,我真的希望有人能帮我:)

EN

回答 1

Data Science用户

回答已采纳

发布于 2021-01-04 14:55:47

在决定在模型中使用哪些数据时,您必须注意到几个缺陷。其中之一是信息泄漏,即包括包含在预测时不应该拥有的信息的数据。

持续时间和目标都是在预测时(即在匹配之前)没有的数据点,因此不应该在预测模型中使用。

这就给我们留下了一个信息点:所涉及的团队。你仍然可以建立一个ML模型,但它只会告诉你一些琐碎的事情:哪些球队在过去赢得了更多的头2场比赛,因为这是它唯一用来确定可能的胜利者的信息(因此模型也总是预测相同的结果,因为输入不会改变)。

这意味着你需要更多的数据来建立一个模型。预测体育赛事结果的现代模型使用的数据包括团队的近期表现、时间(如一天中的时间、工作日、季节等)、所有参与者最近的表现、背景(如天气等)。

您的数据集似乎不包含此信息,因此恐怕您将无法创建模型。

我建议从另一个问题开始,它有一个更好的数据集,对于初学者来说更容易破解。IRIS数据集是一个众所周知的初学者ML问题,并教您如何建模一个分类算法。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/87464

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档