首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    基于Titanic数据集的完整数据分析

    大家好,我是Peter~ 本文是一个极度适合入门数据分析的案例,采用的是经典数据集:泰坦尼克数据集(train部分),主要内容包含: 数据探索分析EDA 数据预处理和特征工程 建模与预测 超参数优化 集成学习思想...True) data['Start'].replace(['Mr','Mrs','Miss','Master','Other'],[0,1,2,3,4],inplace=True) 删除无用特征 删除对建模无效或者冗余的特征...: In 93: print(gd.best_score_) # 最佳得分 print(gd.best_estimator_) # 最佳参数组合 0.8282593685267716 SVC(C=0.4...} gd=GridSearchCV(estimator=RandomForestClassifier(random_state=0), param_grid=hyper...,我们发现AdaBoost的得分是最高的;下面进行超参数优化过程: AdaBoost超参数优化 In 112: n_estimators = list(range(100,1100,100)) learn_rate

    1.3K20

    随机森林随机选择特征的方法_随机森林步骤

    1.RF参数含义 1.1RF框架参数 (1) n_estimators: 也就是弱学习器的最大迭代次数,或者说最大的弱学习器的个数。...一般来说n_estimators太小,容易欠拟合,n_estimators太大,计算量会太大,并且n_estimators到一定的数量后,再增大n_estimators获得的模型提升会很小,所以一般选择一个适中的数值...从上面可以看出, RF重要的框架参数比较少,主要需要关注的是 n_estimators,即RF最大的决策树个数。...=20,max_depth=8,max_features=‘sqrt’,random_state=10), (2)param_grid 需要最优化的参数的取值,值为字典或者列表,例如:param_grid...字符串(函数名),或是可调用对象,需要其函数签名形如:scorer(estimator, X, y);如果是None,则使用estimator的误差估计函数。

    1.8K20
    领券