所以,我目前正在学习机器学习和数据分析。我为自己制造了一个问题,就是:
现在,我缩小了它作为一个Binary Classification problem
,因为我只想知道谁将是一场比赛的赢家。
为此,我有一些包含以下数据点的数据:
现在,这就是问题的开始(至少对我来说),我不确定该为我的模型选择哪些特性,也不确定如何管理数据。
假设我有两支球队在比赛(利物浦对切尔西),现在我在所有比赛中都有5000分的数据,但是在利物浦和切尔西的比赛中,只有82分左右。我应该使用哪个数据集?
同时,有时他们在数据集中的位置也会发生变化,这意味着有时候利物浦是Team One
,有时切尔西是Team One
,这有什么关系吗?还是我应该处理数据集,使其始终匹配某一位置的球队?
一般来说,训练我的模特最好的方法是什么?我是应该使用只包含这两支球队之间的比赛的小数据集,还是应该进行所有的比赛?
对于初学者的问题,我很抱歉,我真的希望有人能帮我:)
发布于 2021-01-04 14:55:47
在决定在模型中使用哪些数据时,您必须注意到几个缺陷。其中之一是信息泄漏,即包括包含在预测时不应该拥有的信息的数据。
持续时间和目标都是在预测时(即在匹配之前)没有的数据点,因此不应该在预测模型中使用。
这就给我们留下了一个信息点:所涉及的团队。你仍然可以建立一个ML模型,但它只会告诉你一些琐碎的事情:哪些球队在过去赢得了更多的头2场比赛,因为这是它唯一用来确定可能的胜利者的信息(因此模型也总是预测相同的结果,因为输入不会改变)。
这意味着你需要更多的数据来建立一个模型。预测体育赛事结果的现代模型使用的数据包括团队的近期表现、时间(如一天中的时间、工作日、季节等)、所有参与者最近的表现、背景(如天气等)。
您的数据集似乎不包含此信息,因此恐怕您将无法创建模型。
我建议从另一个问题开始,它有一个更好的数据集,对于初学者来说更容易破解。IRIS数据集是一个众所周知的初学者ML问题,并教您如何建模一个分类算法。
https://datascience.stackexchange.com/questions/87464
复制相似问题