python sklearn模型中random_state参数的意义

文章来源：企鹅号 - 量化爱好者

一、前言

在学习机器学习的过程中，常常遇到random_state这个参数，并且好多时候都是 random_state=42，感觉挺有意思的，这里做一个总结。

作用：控制随机状态。

问题：为什么需要用到这样一个参数random_state（随机状态）？看完文章你就会知道了。

一句话概括：random_state是一个随机种子，是在任意带有随机性的类或函数里作为参数来控制随机模式。当random_state取某一个值时，也就确定了一种规则。

random_state可以用于很多函数，它可以用于以下三个地方：

1、训练集测试集的划分

2、构建决策树

3、构建随机森林

二：random_state的三种应用场所

2.1 划分训练集和测试集的类train_test_split

xtrain,xtest,ytrain,ytest = train_test_split(X,y,test_size=0.2,random_state=42)

随机数种子控制每次划分训练集和测试集的模式，其取值不变时划分得到的结果一模一样，其值改变时，划分得到的结果不同。若不设置此参数，则函数会自动选择一种随机模式，得到的训练结果可能也就不同。

2.2 构建决策树的函数

clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=42,splitter="random")

其取值不变时，用相同的训练集建树得到的结果一模一样，对测试集的预测结果也是一样的；

其值改变时，得到的结果不同；

若不设置此参数，则函数会自动选择一种随机模式，每次得到的结果也就不同。

2.3 构建随机森林

clf = RandomForestClassifier(random_state=0)

其取值不变时，用相同的训练集建森林得到的结果一模一样，对测试集的预测结果也是一样的；

其值改变时，建森林得到的结果不同；

若不设置此参数，则函数会自动选择一种随机模式，每次得到的结果也就不同。

2.4 小结

如果你希望结果可以重现，固定random_state是非常重要的。

对于随机森林这个模型，它本质上是随机的，设置不同的随机状态（或者不设置random_state参数）可以彻底改变构建的模型。

对于数据集的生成，它本质上也是随机的，设置不同的随机状态（或者不设置random_state参数）可以彻底改变生成的数据集。

对于数据集的拆分，它本质上也是随机的，设置不同的随机状态（或者不设置random_state参数）可以彻底改变拆分的结果。

固定random_state后，每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

三、总结

对于那些本质上是随机的过程，我们有必要控制随机的状态，这样才能重复的展现相同的结果。如果，对随机状态不加控制，那么实验的结果就无法固定，而是随机的显现。

因为同一算法模型在不同的训练集和测试集的会得到不同的准确率，无法调参。所以在sklearn 中可以通过添加random_state，通过固定random_state的值，每次可以分割得到同样训练集和测试集。因此random_state参数主要是为了保证每次都分割一样的训练集和测试集，大小可以是任意一个整数，在调参环节，只要保证其值一致即可。

所以，至于random_state=？随你喽

发表于: 2023-05-152023-05-15 00:00:00
原文链接：https://kuaibao.qq.com/s/20230513A02PS700?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

python sklearn模型中random_state参数的意义

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐