腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >如何使用pandas创建交叉表来显示随机森林预测器的预测结果？

问如何使用pandas创建交叉表来显示随机森林预测器的预测结果？
EN

Stack Overflow用户

提问于 2018-08-23 02:42:09

回答 2查看 860关注 0票数 0

我是随机森林(以及蟒蛇)的新手。我使用的是随机森林分类器，数据集定义为't2002‘。

 t2002.column

下面是几个列：

Index(['IndividualID', 'ES2000_B01ID', 'NSSec_B03ID', 'Vehicle', 
   'Age_B01ID',
   'IndIncome2002_B02ID', 'MarStat_B01ID', 'EcoStat_B03ID',
   'MainMode_B03ID', 'TripStart_B02ID', 'TripEnd_B02ID',
   'TripDisIncSW_B01ID', 'TripTotalTime_B01ID', 'TripTravTime_B01ID',
   'TripPurpFrom_B01ID', 'TripPurpTo_B01ID'],
  dtype='object')

我使用如下代码来运行分类器：

from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import make_scorer, accuracy_score
from sklearn.model_selection import GridSearchCV

from sklearn.model_selection import train_test_split
X_all = t2002.drop(['MainMode_B03ID'],axis=1)
y_all = t2002['MainMode_B03ID']
p = 0.2

X_train,X_test, y_train, y_test = train_test_split(X_all,y_all,test_size=p, 
random_state=23)

clf = RandomForestClassifier()
acc_scorer = make_scorer(accuracy_score)

 parameters = {
         }    # parameter is blank

grid_obj = GridSearchCV(clf,parameters,scoring=acc_scorer)
grid_obj = grid_obj.fit(X_train,y_train)

clf = grid_obj.best_estimator_
clf.fit(X_train,y_train)

predictions = clf.predict(X_test)
print(accuracy_score(y_test,predictions))

在这种情况下，我如何使用pandas生成交叉表(如表格)来显示详细的预测结果？

提前感谢！

python

pandas

scikit-learn

random-forest

sklearn-pandas

实时音视频 TRTC给你沉浸式全

9.9元畅享2万分钟实时音视频通用时长；改2行代码，1分钟跑通 Demo

回答 2

Stack Overflow用户

发布于 2018-08-23 05:37:25

您可以先使用sklearn创建混淆矩阵，然后将其转换为pandas数据帧。

from sklearn.metrics import confusion_matrix
#creating confusion matrix as array
confusion = confusion_matrix(t2002['MainMode_B03ID'].tolist(),predictions)

#converting to df
new_df = pd.DataFrame(confusion,
                 index = t2002['MainMode_B03ID'].unique(),
                 columns = t2002['MainMode_B03ID'].unique())

票数 0

Stack Overflow用户

发布于 2018-08-30 00:58:08

使用pandas很容易显示所有预测结果。按照docs中的说明使用cv_results_。

import pandas as pd

results = pd.DataFrame(clf.cv_results_) # clf is the GridSearchCV object
print(results.head())

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/51977643

复制

随机森林概览：创建，使用和评估

决策树机器学习神经网络深度学习人工智能

决策树在训练集中的表现较好，但是因其不具有灵活性而在其他外部数据中的表现略差。由许多决策树组成的随机森林更具有灵活性，从而较大地提高了准确预测的能力。

王诗翔呀

2020/10/09

1.2K0

从决策树到随机森林：树型算法的原理与实现

决策树编程算法 github

选自Github.io 作者：Sadanand Singh 机器之心编译基于树（Tree based）的学习算法在数据科学竞赛中是相当常见的。这些算法给预测模型赋予了准确性、稳定性以及易解释性。和线性模型不同，它们对非线性关系也能进行很好的映射。常见的基于树的模型有：决策树（decision trees）、随机森林（random forest）和提升树（boosted trees）。在本篇文章中，我们将会介绍决策树的数学细节（以及各种 Python 示例）及其优缺点。你们将会发现它们很简单，并且这些内

机器之心

2018/05/09

2.1K0

pandas系列7-透视表和交叉表

linux 数据分析

透视表pivot_table是各种电子表格和其他数据分析软件中一种常见的数据分析汇总工具。根据一个或者多个键对数据进行聚合根据行和列上的分组键将数据分配到各个矩形区域中一文看懂pandas的透视表 Pivot_table 特点灵活性高，可以随意定制你的分析计算要求脉络清晰易于理解数据操作性强，报表神器参数 data: a DataFrame object，要应用透视表的数据框 values: a column or a list of columns to aggregate，要聚合的列

皮大大

2021/03/02

1.2K0

盘一盘 Python 系列 8 - Sklearn

机器学习神经网络深度学习人工智能监督学习

Sklearn (全称 Scikit-Learn) 是基于 Python 语言的机器学习工具。它建立在 NumPy, SciPy, Pandas 和 Matplotlib 之上，里面的 API 的设计非常好，所有对象的接口简单，很适合新手上路。

代码医生工作室

2019/09/04

2.2K0

盘一盘 Python 系列 8 - Sklearn

机器学习神经网络深度学习人工智能监督学习

用户5753894

2019/07/05

1.8K0

随机森林随机选择特征的方法_随机森林步骤

决策树机器学习神经网络深度学习人工智能

摘要：当你读到这篇博客，如果你是大佬你可以选择跳过去，免得耽误时间，如果你和我一样刚刚入门算法调参不久，那么你肯定知道手动调参是多么的低效。那么现在我来整理一下近几日学习的笔记，和大家一起分享学习这个知识点。对于scikit-learn这个库我们应该都知道，可以从中导出随机森林分类器（RandomForestClassifier），当然也能导出其他分类器模块，在此不多赘述。在我们大致搭建好训练模型之后，我们需要确定RF分类器中的重要参数，从而可以得到具有最佳参数的最终模型。这次调参的内容主要分为三块：1.参数含义；2.网格搜索法内容；3.实战案例。

全栈程序员站长

2022/09/27

1.8K0

利用随机森林算法实现Bank风险预测

决策树机器学习神经网络深度学习人工智能

源码分享及数据集分享：https://github.com/luo948521848/BigDatas

Java架构师必看

2021/07/22

5420

基于随机森林模型的心脏病人预测分类

人工智能 “觅影”医学人工智能算法大赛机器学习

今天给大家分享一个新的kaggle案例：基于随机森林模型（RandomForest）的心脏病人预测分类。本文涉及到的知识点主要包含：

皮大大

2022/02/22

2K0

【Spark Mllib】决策树，随机森林——预测森林植被类型

决策树机器学习神经网络深度学习人工智能

决策树有训练分类模型的函数trainClassifier和回归模型的函数trainRegressor，这里我们使用trainClassifier。我们来看看trainClassifier都需要什么参数：

小爷毛毛_卓寿杰

2019/02/13

1.6K0

基于ARIMA、SVM、随机森林销售的时间序列预测

编程算法腾讯云测试服务决策树机器学习神经网络

扎对，将产品粗略分为：基本款和时装。对于基本款，每年都没什么大变化，国际流行的影响也不大，那么可以进行长计划生产。对于时装，决定潮流走向的决策权不在某个区域，一个地方的买手们也没有成长到可以准确预判国际流行趋势，所以需要结合不同区域的各种因素，进行预测。对应的，在新货构成中，销量预测策略为：基本款计划生产，时尚款机动调整。

拓端

2020/09/26

2.2K0

基于ARIMA、SVM、随机森林销售的时间序列预测

编程算法腾讯云测试服务决策树机器学习神经网络

拓端

2020/09/26

2.2K0

使用桥接模式来显示下单结果顶

编程算法

在用工厂方法模式来下不同订单中我们看到，我们只简单显示来一个“下单成功”，但实际上我们需要给用户返回到结果可能多种多样。

算法之名

2019/09/04

6090

随机森林

决策树机器学习神经网络深度学习人工智能

算法步骤:随机森林由LeoBreiman于2001年提出，它通过自助法（Bootstrap）重采样技术，从原始训练样本集N中有放回地重复随机抽取k个样本生成新的训练样本集合。然后根据自助样本集生成k个分类树，这k个分类树组成随机森林。新数据的分类结果按各分类树投票多少形成的分数而定。采样与完全分裂两个随机采样的过程，Random Forest对输入的数据要进行、列的采样。对于行采样，采用有放回的方式，采样得到的样本集合中，可能有重复的样本。列采样，在得到的样本中，从M个特征中，选择m个（m << M）。对采样之后的数据使用完全分裂的方式建立出决策树，这样决策树的某一个叶子节点要么是无法继续分裂的，要么里面的所有样本的都是指向的同一个分类。完全随机的取样方式使得每棵树都有过学习的可能，但是因为数量足够多使得最后的模型过学习的可能性大大降低随机森林在最后输出时采取的是Majority-voting。

爱编程的小明

2022/09/06

8140

[机器学习算法]随机森林

机器学习

从统计学的角度来讲，将模型的性能寄希望于单棵决策树是不稳健的，这意味着它在处理未知数据时预测结果的方差是较大的。如同我们做重要决定时会考虑多个专家的意见，元算法meta-algorithm主张综合多个分类器的结果做预测，元算法也被称为集成方法ensemble method，主要思路包括：

TOMOCAT

2020/06/09

1.2K0

随机森林

决策树机器学习神经网络深度学习人工智能

随机森林算法的思想就是通过集成学习和随机的方式将多棵树集成的一种算法，通过多棵树对数据集进行学习训练最后投票选举出最佳的一个最终的输出。这里每一棵树是一颗决策树，也叫作一个分类器。

opprash

2019/08/30

8820

机器学习常用算法：随机森林分类

决策树机器学习神经网络深度学习人工智能

机器学习模型通常分为有监督和无监督学习算法。当我们定义（标记）参数时创建监督模型，包括相关的和独立的。相反，当我们没有定义（未标记）参数时，使用无监督方法。在本文中，我们将关注一个特定的监督模型，称为随机森林，并将演示泰坦尼克号幸存者数据的基本用例。在深入了解随机森林模型的细节之前，重要的是定义决策树、集成模型、Bootstrapping，这些对于理解随机森林模型至关重要。决策树用于回归和分类问题。它们在视觉上像树一样流动，因此得名，在分类情况下，它们从树的根开始，然后根据变量结果进行二元拆分，直到到达

double

2022/09/01

1.1K0

随机森林回归算法_随机森林算法的优缺点

数据分析决策树机器学习神经网络深度学习

随机森林回归模型由多棵回归树构成，且森林中的每一棵决策树之间没有关联，模型的最终输出由森林中的每一棵决策树共同决定。随机森林的随机性体现在两个方面： 1、样本的随机性，从训练集中随机抽取一定数量的样本，作为每颗回归树的根节点样本；

全栈程序员站长

2022/09/24

1.5K0

随机森林

决策树机器学习神经网络深度学习人工智能

在机器学习的分类中，集成学习是按照学习方式分类的一种机器学习，所以先从集成学习讲起。

章鱼carl

2022/03/31

4640

python对随机森林分类结果绘制roc曲线

java https 网络安全

【注意!!!!! 以下代码用到的roc_curve函数（只能用于二分类），如果多分类会报错，不适用于多分类!!!!!】

全栈程序员站长

2022/08/29

1.5K0

非常详细的sklearn介绍

机器学习神经网络深度学习人工智能监督学习

全栈程序员站长

2022/08/27

1.2K0

相似问题

Python中的分类和随机森林:无论预测器如何，预测结果都是相同的

具有两个预测器的随机森林

如何提高随机森林回归预测结果

在随机森林分类器中添加预测器(Pandas，Python3，Sklearn)

随机森林中的预测器是否会导致欠拟合？

活动推荐

SaaS建站+私有服务器，拖拉式完成多端建站，5分钟搭建企业官网

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

社区富文本编辑器全新改版！诚邀体验～

全新交互，全新视觉，新增快捷键、悬浮工具栏、高亮块等功能并同时优化现有功能，全面提升创作效率和体验

问如何使用pandas创建交叉表来显示随机森林预测器的预测结果？
EN

实时音视频 TRTC给你沉浸式全

回答 2

Stack Overflow用户

Stack Overflow用户

Python中的分类和随机森林:无论预测器如何，预测结果都是相同的

具有两个预测器的随机森林

如何提高随机森林回归预测结果

在随机森林分类器中添加预测器(Pandas，Python3，Sklearn)

随机森林中的预测器是否会导致欠拟合？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用pandas创建交叉表来显示随机森林预测器的预测结果？EN

实时音视频 TRTC给你沉浸式全

回答 2

Stack Overflow用户

Stack Overflow用户

Python中的分类和随机森林:无论预测器如何，预测结果都是相同的

具有两个预测器的随机森林

如何提高随机森林回归预测结果

在随机森林分类器中添加预测器(Pandas，Python3，Sklearn)

随机森林中的预测器是否会导致欠拟合？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用pandas创建交叉表来显示随机森林预测器的预测结果？
EN