文章/答案/技术大牛

发布

社区首页 >问答首页 >经典体育赛事预测

问经典体育赛事预测
EN

Data Science用户

提问于 2021-01-03 23:53:01

回答 1查看 28关注 0票数 0

所以，我目前正在学习机器学习和数据分析。我为自己制造了一个问题，就是：

将赢得一场足球比赛

现在，我缩小了它作为一个Binary Classification problem，因为我只想知道谁将是一场比赛的赢家。

为此，我有一些包含以下数据点的数据：

一队
第二队
持续时间
目标(一队)
目标(第二队)
胜利者

现在，这就是问题的开始(至少对我来说)，我不确定该为我的模型选择哪些特性，也不确定如何管理数据。

假设我有两支球队在比赛(利物浦对切尔西)，现在我在所有比赛中都有5000分的数据，但是在利物浦和切尔西的比赛中，只有82分左右。我应该使用哪个数据集？

同时，有时他们在数据集中的位置也会发生变化，这意味着有时候利物浦是Team One，有时切尔西是Team One，这有什么关系吗?还是我应该处理数据集，使其始终匹配某一位置的球队？

一般来说，训练我的模特最好的方法是什么？我是应该使用只包含这两支球队之间的比赛的小数据集，还是应该进行所有的比赛？

对于初学者的问题，我很抱歉，我真的希望有人能帮我:)

data-analysis

classification

回答 1

Data Science用户

回答已采纳

发布于 2021-01-04 14:55:47

在决定在模型中使用哪些数据时，您必须注意到几个缺陷。其中之一是信息泄漏，即包括包含在预测时不应该拥有的信息的数据。

持续时间和目标都是在预测时(即在匹配之前)没有的数据点，因此不应该在预测模型中使用。

这就给我们留下了一个信息点:所涉及的团队。你仍然可以建立一个ML模型，但它只会告诉你一些琐碎的事情:哪些球队在过去赢得了更多的头2场比赛，因为这是它唯一用来确定可能的胜利者的信息(因此模型也总是预测相同的结果，因为输入不会改变)。

这意味着你需要更多的数据来建立一个模型。预测体育赛事结果的现代模型使用的数据包括团队的近期表现、时间(如一天中的时间、工作日、季节等)、所有参与者最近的表现、背景(如天气等)。

您的数据集似乎不包含此信息，因此恐怕您将无法创建模型。

我建议从另一个问题开始，它有一个更好的数据集，对于初学者来说更容易破解。IRIS数据集是一个众所周知的初学者ML问题，并教您如何建模一个分类算法。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/87464

复制

相似问题

问经典体育赛事预测
EN

将赢得一场足球比赛

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问经典体育赛事预测EN

将赢得一场足球比赛

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问经典体育赛事预测
EN