首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

python sklearn模型中random_state参数的意义

一、前言

在学习机器学习的过程中,常常遇到random_state这个参数,并且好多时候都是 random_state=42,感觉挺有意思的,这里做一个总结。

作用:控制随机状态。

问题:为什么需要用到这样一个参数random_state(随机状态)?看完文章你就会知道了。

一句话概括:random_state是一个随机种子,是在任意带有随机性的类或函数里作为参数来控制随机模式。当random_state取某一个值时,也就确定了一种规则。

random_state可以用于很多函数,它可以用于以下三个地方:

1、训练集测试集的划分

2、构建决策树

3、构建随机森林

二:random_state的三种应用场所

2.1 划分训练集和测试集的类train_test_split

xtrain,xtest,ytrain,ytest = train_test_split(X,y,test_size=0.2,random_state=42)

随机数种子控制每次划分训练集和测试集的模式,其取值不变时划分得到的结果一模一样,其值改变时,划分得到的结果不同。若不设置此参数,则函数会自动选择一种随机模式,得到的训练结果可能也就不同。

2.2 构建决策树的函数

clf = tree.DecisionTreeClassifier(criterion="entropy",random_state=42,splitter="random")

其取值不变时,用相同的训练集建树得到的结果一模一样,对测试集的预测结果也是一样的;

其值改变时,得到的结果不同;

若不设置此参数,则函数会自动选择一种随机模式,每次得到的结果也就不同。

2.3 构建随机森林

clf = RandomForestClassifier(random_state=0)

其取值不变时,用相同的训练集建森林得到的结果一模一样,对测试集的预测结果也是一样的;

其值改变时,建森林得到的结果不同;

若不设置此参数,则函数会自动选择一种随机模式,每次得到的结果也就不同。

2.4 小结

如果你希望结果可以重现,固定random_state是非常重要的。

对于随机森林这个模型,它本质上是随机的,设置不同的随机状态(或者不设置random_state参数)可以彻底改变构建的模型。

对于数据集的生成,它本质上也是随机的,设置不同的随机状态(或者不设置random_state参数)可以彻底改变生成的数据集。

对于数据集的拆分,它本质上也是随机的,设置不同的随机状态(或者不设置random_state参数)可以彻底改变拆分的结果。

固定random_state后,每次构建的模型是相同的、生成的数据集是相同的、每次的拆分结果也是相同的。

三、总结

对于那些本质上是随机的过程,我们有必要控制随机的状态,这样才能重复的展现相同的结果。如果,对随机状态不加控制,那么实验的结果就无法固定,而是随机的显现。

因为同一算法模型在不同的训练集和测试集的会得到不同的准确率,无法调参。所以在sklearn 中可以通过添加random_state,通过固定random_state的值,每次可以分割得到同样训练集和测试集。因此random_state参数主要是为了保证每次都分割一样的训练集和测试集,大小可以是任意一个整数,在调参环节,只要保证其值一致即可。

所以,至于random_state=?随你喽

  • 发表于:
  • 原文链接https://kuaibao.qq.com/s/20230513A02PS700?refer=cp_1026
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券