社区首页 >问答首页 >randomForest使用因子变量作为连续变量?

randomForest使用因子变量作为连续变量?
EN

Stack Overflow用户
提问于 2019-03-08 12:43:58
回答 1查看 1.1K关注 0票数 2

我正在使用软件包randomForest为物种制作栖息地适宜性模型。在我开始用getTree()查看单个树之前,我认为一切都在正常工作。文档(见randomForest的第4页)指出,对于分类变量,拆分点将是一个整数,这是有意义的。然而,在我看过的树上,我的结果却不是这样。

我用来构建模型的数据框架被格式化为作为因素的分类变量:

代码语言:javascript
代码运行次数:0
复制
> str(df.full)
'data.frame':   27087 obs. of  23 variables:
 $ sciname   : Factor w/ 2 levels "Laterallus jamaicensis",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ estid     : Factor w/ 2 levels "7694","psabs": 1 1 1 1 1 1 1 1 1 1 ...
 $ pres      : Factor w/ 2 levels "1","0": 1 1 1 1 1 1 1 1 1 1 ...
 $ stratum   : Factor w/ 89 levels "poly_0","poly_1",..: 1 1 1 1 1 1 1 1 1 1 ...
 $ ra        : Factor w/ 3 levels "high","low","medium": 3 3 3 3 3 3 3 3 3 3 ...
 $ eoid      : Factor w/ 2 levels "0","psabs": 1 1 1 1 1 1 1 1 1 1 ...
 $ avd3200   : num  0.1167 0.0953 0.349 0.1024 0.3765 ...
 $ biocl05   : num  330 330 330 330 330 ...
 $ biocl06   : num  66 65.8 66 65.8 66 ...
 $ biocl08   : num  277 277 277 277 277 ...
 $ biocl09   : num  170 170 170 170 170 ...
 $ biocl13   : num  186 186 185 186 185 ...
 $ cti       : num  19.7 19 10.4 16.4 14.7 ...
 $ dtnhdwat  : num  168 240 39 206 309 ...
 $ dtwtlnd   : num  0 0 0 0 0 0 0 0 0 0 ...
 $ e2em1n99  : num  0 0 0 0 0 0 0 0 0 0 ...
 $ ems30_53  : Factor w/ 53 levels "0","602","2206",..: 19 4 17 4 19 19 4 4 19 19 ...
 $ ems5607_46: num  0 0 1 0 0.4 ...
 $ ksat      : num  0.21 0.21 0.21 0.21 0.21 ...
 $ lfevh_53  : Factor w/ 53 levels "0","11","16",..: 38 38 38 38 38 38 38 38 38 38 ...
 $ ned       : num  1.46 1.48 1.54 1.48 1.47 ...
 $ soilec    : num  14.8 14.8 19.7 14.8 14.8 ...
 $ wtlnd_53  : Factor w/ 50 levels "0","3","7","11",..: 4 31 7 31 7 31 7 7 31 31 ...

这是函数调用:

代码语言:javascript
代码运行次数:0
复制
# rfStratum and sampSizeVec were previously defined
> rf.full$call
randomForest(x = df.full[, c(7:23)], y = df.full[, 3], 
ntree = 2000, mtry = 7, replace = TRUE, strata = rfStratum, 
sampsize = sampSizeVec, importance = TRUE, norm.votes = TRUE)

下面是示例树的前15行(请注意,第1、5和15行中的变量应该是绝对的,即它们应该有整数拆分值):

代码语言:javascript
代码运行次数:0
复制
> tree100
   left daughter right daughter split var  split point status prediction
1              2              3  ems30_53 9.007198e+15      1       <NA>
2              4              5   biocl08 2.753206e+02      1       <NA>
3              6              7   biocl06 6.110518e+01      1       <NA>
4              8              9   biocl06 1.002722e+02      1       <NA>
5             10             11  lfevh_53 9.006718e+15      1       <NA>
6              0              0      <NA> 0.000000e+00     -1          0
7             12             13   biocl05 3.310025e+02      1       <NA>
8             14             15       ned 2.814818e+00      1       <NA>
9              0              0      <NA> 0.000000e+00     -1          1
10            16             17   avd3200 4.199712e-01      1       <NA>
11            18             19  e2em1n99 1.724138e-02      1       <NA>
12            20             21   biocl09 1.738916e+02      1       <NA>
13            22             23       ned 8.837864e-01      1       <NA>
14            24             25   biocl05 3.442437e+02      1       <NA>
15            26             27  lfevh_53 9.007199e+15      1       <NA>

附加信息:我遇到这种情况是因为我正在调查预测结果返回到研究区域时所遇到的一个错误,说明新数据中的预测器类型与培训数据的类型不匹配。我使用相同的数据框架和脚本(只是使用不同的预测器子集)对该模型进行了6次其他迭代,而且以前从未收到过此消息。与其他运行相比,我发现这次运行中的随机森林对象之间唯一不同的地方是,the rf.full$forest$ncat组件存储为双倍而不是整数。

代码语言:javascript
代码运行次数:0
复制
> for(i in 1:length(rf.full$forest$ncat)){
+   cat(names(rf.full$forest$ncat)[[i]], ": ", class(rf.full$forest$ncat[[i]]), "\n")
+ }
avd12800 :  numeric 
cti :  numeric 
dtnhdwat :  numeric 
dtwtlnd :  numeric 
ems2207_99 :  numeric 
ems30_53 :  numeric 
ems5807_99 :  numeric 
hydgrp :  numeric 
ksat :  numeric 
lfevh_53 :  numeric 
ned :  numeric 
soilec :  numeric 
wtlnd_53 :  numeric 
> 
> rf.full$forest$ncat
  avd12800        cti   dtnhdwat    dtwtlnd ems2207_99   ems30_53 ems5807_99     hydgrp       ksat   lfevh_53 
     1          1          1          1          1         53          1          1          1         53 
   ned     soilec   wtlnd_53 
     1          1         50

但是,xlevel(它似乎是所使用的预测变量及其类型的列表)都显示了每个预测器的正确数据类型。

代码语言:javascript
代码运行次数:0
复制
> for(i in 1:length(rf.full$forest$xlevels)){
+   cat(names(rf.full$forest$xlevels)[[i]], ": ", class(rf.full$forest$xlevels[[i]]),"\n")
+ }
avd12800 :  numeric 
cti :  numeric 
dtnhdwat :  numeric 
dtwtlnd :  numeric 
ems2207_99 :  numeric 
ems30_53 :  character 
ems5807_99 :  numeric 
hydgrp :  character 
ksat :  numeric 
lfevh_53 :  character 
ned :  numeric 
soilec :  numeric 
wtlnd_53 :  character 

# example continuous predictor
> rf.full$forest$xlevels$avd12800
[1] 0
# example categorical predictor
> rf.full$forest$xlevels$ems30_53
 [1] "0"    "602"  "2206" "2207" "4504" "4507" "4702" "4704" "4705" "4706" "4707" "4717" "5207" "5307" "5600"
[16] "5605" "5607" "5616" "5617" "5707" "5717" "5807" "5907" "6306" "6307" "6507" "6600" "7002" "7004" "9107"
[31] "9116" "9214" "9307" "9410" "9411" "9600" "4607" "4703" "6402" "6405" "6407" "6610" "7005" "7102" "7104"
[46] "7107" "9000" "9104" "9106" "9124" "9187" "9301" "9505"

ncat组件只是每个变量的类别数的向量,而连续变量(如前所述)为1,因此,如果将其存储为整数或双变量,似乎并不重要,但这一切似乎都是相关的。

问题

1)在randomForest林的任何给定树中,范畴预测器的拆分点不应该是一个整数吗?如果是的话,对于为什么此处用作randomForest调用输入的数据帧中的因素不被用作整数,有什么想法吗?

( 2) randomForest对象的ncat组件的数字类型(双对整数)在任何方面是否与建模有关,以及如何使它在前6次运行中从整数切换到在最后一次运行中加倍(每次运行包含相同数据的不同子集)?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-03-08 13:02:07

randomforest::randomForest算法编码低基数(最多32类)和高基数(32到64?类别)分类划分不同。注意-所有“有问题”的特性都属于后一类,并使用64位浮点值进行编码。

虽然控制台输出对人工观察者没有意义,但randomForest模型对象/算法本身是正确的(即。将这些变量视为绝对变量),并作出正确的预测。

如果您想研究决策树和决策树集成模型的结构,那么可以考虑将它们导出为PMML数据格式。例如,您可以为此使用R2PMML包:

代码语言:javascript
代码运行次数:0
复制
library("r2pmml")
r2pmml(rf.full, "MyRandomForest.pmml")

然后,在文本编辑器中打开MyRandomForest.pmml,您将对模型的内部(分支、拆分条件、叶值等)有一个很好的概述。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55070733

复制
相关文章
C++11模板:如何判断类中是否有指定名称的成员变量?
版权声明:本文为博主原创文章,转载请注明源地址。 https://blog.csdn.net/10km/article/details/51113805
10km
2019/05/25
4.2K0
动态调用类中的方法(无)(有)参数
1、Type类,方法用Invoke调用的时候就 使用null:表示该方法是无参数的
静心物语313
2020/03/24
2.6K0
powershell: 判断PSObject中是否有指定property的靠谱方法
如何判断一个PSObject中是否定义指定名称的属性,下面的代码中举出了三个方法 $test=New-Object PSObject -Property @{ compiler=$null
10km
2018/01/03
1.1K0
less中的可变参数
当前我们的混合的参数都需要传递,如果都需要全部传递可以使用 @arguments,@arguments 代表着就是你传入的所有参数,less 中的 @arguments 和 js 中的 arguments 一样,可以拿到传递进来的所有形参,这个时候你就不用足一的赋值,如下
程序员 NEO
2023/09/29
2090
less中的可变参数
Sass中的可变参数
SASS 中的可变参数和 LESS 中也一样,只不过由于 SASS 不是使用 JS 实现的,所以不能直接在混合中使用 arguments,必须通过 $args... 的格式来定义可变参数,然后通过 $args 来使用,注意点:和 LESS 一样可变参数必须写在形参列表的最后:
程序员 NEO
2023/09/29
1890
Sass中的可变参数
【C++11】移动赋值 | 新的类功能 | 可变参数模板
C++98中 没有移动赋值和移动构造 ,只有参数为左值 的赋值重载(operator=)和拷贝构造
lovevivi
2023/10/17
1980
【C++11】移动赋值 | 新的类功能 | 可变参数模板
C/C++开发基础——可变参数与可变参数模板
1.如果可变参数的参数类型相同,可以使用标准库中的initializer_list。
Coder-ZZ
2023/09/04
7170
C/C++开发基础——可变参数与可变参数模板
【JavaSE】可变参数的基本使用
可变参数 1. 基本概念 Java 允许将同一个类中多个同名同功能但参数个数不同的方法,封装成一个方法 就可以通过可变参数实现 2. 基本语法 访问修饰符 返回类型 方法名(数据类型... 形参名) { } 3. 快速入门案例 VarParameter01.java 看一个案例 类 XdrMethod,方法 sum 【可以计算 2 个数的和,3 个数的和 , 4. 5, ...】 public int sum(int n1, int n2){ return n1 + n2; }
兮动人
2021/12/30
4400
Java 开发中可变参数个数的方法 原
在 J2SE 5 以前,可以使用数组来实现向一个方法中传入个数可变的参数的目的,比较典型的应用场景就是 main 方法。
LeoXu
2018/08/15
1.1K0
python中函数的可变参数
print(1,2,"hello","刘金玉编程","编程创造城市",end="$$$")
刘金玉编程
2019/07/30
2.2K0
小朋友,你是否有很多的 GC ?
GC 即 Garbage Collection,中文 意思“垃圾回收”,在有GC之前,我们手动去管理内存,如果你忘记标记某一处已经不再使用的内存,那么这块内存将永远不会被系统回收,也就是常说的 “内存泄露”。
代码宇宙
2023/02/23
4020
Logback排除指定包/类/方法日志输出
Logback排除指定包或者类或者方法的日志输出 在logback-spring.xml中添加如下代码,可以一直点下去 <!--包--> <logger name="com.newbie.dao" level="OFF"></logger> <!--类--> <logger name="com.newbie.dao.NbDdiMonitorDao" level="OFF"></logger> <!--方法--> <logger name="com.newbie.dao.NbDdiMonitorDao.upd
4xx.me
2022/06/10
4.6K0
Thymeleaf 指定多个路径作为模板目录
今天自己想在开发平台上增加一套前端的界面,突然想到自己还没有一套用来做展示用的cms系统,为了把cms的模板和后台的模板分开存放,试验了下怎么样设置多个模板路径,代码在此:
前Thoughtworks-杨焱
2021/12/07
1.6K0
可变数据类型不能作为python函数的参数
当使用列表作为参数传入函数时,实际上是引用传递。也就是传入的是实际参数的地址,而place=b也就是指向相同的地址。比如以下的:
西西嘛呦
2020/10/28
1.6K0
实例方法,类方法和静态方法的区别_python中类的所有实例方法
第一个参数是”self”,表示实例对象,通过它传递实例的属性和方法。只能由实例调用
全栈程序员站长
2022/09/20
2K0
【C++】C++11——新的类功能|default、delete|可变参数模板|emplace
在C++98中,如果要限制某些函数的生成,把该函数设置成private,并且只声明不实现
平凡的人1
2023/10/15
3480
【C++】C++11——新的类功能|default、delete|可变参数模板|emplace
可变参数的函数
C语言允许定义参数数量可变的函数,这称为可变参数函数(variadic function)。这种函数需要固定数量的强制参数,后面是数量可变的可选参数。其中,强制参数必须至少一个,可选参数数量可变,类型可变,可选参数的数量由强制参数的值决定。 C 语言中最常用的可变参数函数例子是 printf()和 scanf()。这两个函数都有一个强制参数,即格式化字符串。格式化字符串中的转换修饰符决定了可选参数的数量和类型。 可变参数函数格式:int fun(int a,...)
用户7272142
2023/10/11
2300
IDEA使用模板自动生成类注释和方法,解决方法注释在接口中或普通类的方法外使用模板注释不带参数的情况
参考: idea 自动生成类注释和方法注释的实现步骤-脚本之家 使用groovy脚本生成idea方法注释参数格式对齐
全栈程序员站长
2022/09/27
1.4K0
IDEA使用模板自动生成类注释和方法,解决方法注释在接口中或普通类的方法外使用模板注释不带参数的情况
【Go 语言社区】Golang 可变参数的使用
func main() { Func1(1,2,3,4) } func Func1(args ...int) { for _, res := range args { fmt.Println(res) } Func2(args...) Func3(args[2:]...) } func Func2(args ...int) { fmt.Println("----")
李海彬
2018/03/19
8090
点击加载更多

相似问题

是否有一种使用可变模板作为参数的方法?

25

是否有一种方法可以部分匹配可变模板参数包?

21

模板类的朋友operator<<,带有附加的默认模板参数

13

使用可变模板作为类和方法的参数

15

重载模板类的朋友operator<<

59
添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 技术创作特训营有奖征文