我很难理解哪些数据集需要用于模型选择阶段和最终的模型测试阶段:培训、验证和测试。我试图在下面详细解释它,同时在底部张贴可重复的代码。谢谢您的建议和建议!,我们首先从原始的数据集led中划分一个训练和测试集led_train和led_test。接下来,我们用y= Life expectancy和x= GDP建立了一个具有led_train =数据的线性模型,并对随机森林模型和knn模型进行了同样的处理,使用的是使用Ca
根据此处的讨论,confused about random_state in decision tree of scikit learn 由于我将random_state设置为1,因此我确实具有一致的指标,因为我每次都生成相同的树。但是,当random_state设置为default -- > none时,每次生成的不同树都有不同的性能指标,有些比另一些好,有些则更差。那么我们如何获得可能的最佳度量,或者换句话说,如何找出为随机状态设置的int值