首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >为什么使用as.factor()而不是只使用factor()

为什么使用as.factor()而不是只使用factor()
EN

Stack Overflow用户
提问于 2016-09-02 03:13:23
回答 1查看 90.2K关注 0票数 78

我最近看到Matt Dowle用as.factor()写了一些代码,特别是

代码语言:javascript
运行
复制
for (col in names_factors) set(dt, j=col, value=as.factor(dt[[col]]))

a comment to this answer中。

我使用了这个代码片段,但是我需要显式地设置因子级别,以确保级别按我想要的顺序出现,所以我必须更改

代码语言:javascript
运行
复制
as.factor(dt[[col]])

代码语言:javascript
运行
复制
factor(dt[[col]], levels = my_levels)

这让我思考:与只使用factor()相比,使用as.factor()有什么好处(如果有的话)

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-09-02 03:16:00

as.factorfactor的包装器,但是如果输入向量已经是一个因子,它允许快速返回:

代码语言:javascript
运行
复制
function (x) 
{
    if (is.factor(x)) 
        x
    else if (!is.object(x) && is.integer(x)) {
        levels <- sort(unique.default(x))
        f <- match(x, levels)
        levels(f) <- as.character(levels)
        if (!is.null(nx <- names(x))) 
        names(f) <- nx
        class(f) <- "factor"
        f
    }
else factor(x)
}

来自Frank的评论:它不只是一个包装器,因为这个“快速返回”将保留因子级别,而factor()不会:

代码语言:javascript
运行
复制
f = factor("a", levels = c("a", "b"))
#[1] a
#Levels: a b

factor(f)
#[1] a
#Levels: a

as.factor(f)
#[1] a
#Levels: a b

两年后的扩展答案,包括以下内容:

当使用R的say?

  • Performance:-by函数时,使用R的-by函数时,integer
  • Unused as.factor > factor when input is a factor
  • Performance:as.factor > factor when input is integer
  • Unused levels or NA levels
  • Caution when R's group-by functions: watch
    • unused or NA levels

手册上写了什么?

?factor的文档提到了以下内容:

代码语言:javascript
运行
复制
‘factor(x, exclude = NULL)’ applied to a factor without ‘NA’s is a
 no-operation unless there are unused levels: in that case, a
 factor with the reduced level set is returned.

 ‘as.factor’ coerces its argument to a factor.  It is an
 abbreviated (sometimes faster) form of ‘factor’.

性能:当输入是一个因素时,as.factor > factor

"no-operation“这个词有点模棱两可。不要把它理解为“什么都不做”;实际上,它意味着“做了很多事情,但本质上什么也没改变”。下面是一个示例:

代码语言:javascript
运行
复制
set.seed(0)
## a randomized long factor with 1e+6 levels, each repeated 10 times
f <- sample(gl(1e+6, 10))

system.time(f1 <- factor(f))  ## default: exclude = NA
#   user  system elapsed 
#  7.640   0.216   7.887 

system.time(f2 <- factor(f, exclude = NULL))
#   user  system elapsed 
#  7.764   0.028   7.791 

system.time(f3 <- as.factor(f))
#   user  system elapsed 
#      0       0       0 

identical(f, f1)
#[1] TRUE

identical(f, f2)
#[1] TRUE

identical(f, f3)
#[1] TRUE

as.factor确实提供了一个快速的回报,但factor并不是一个真正的“无人操作”。让我们分析一下factor,看看它都做了些什么。

代码语言:javascript
运行
复制
Rprof("factor.out")
f1 <- factor(f)
Rprof(NULL)
summaryRprof("factor.out")[c(1, 4)]
#$by.self
#                      self.time self.pct total.time total.pct
#"factor"                   4.70    58.90       7.98    100.00
#"unique.default"           1.30    16.29       4.42     55.39
#"as.character"             1.18    14.79       1.84     23.06
#"as.character.factor"      0.66     8.27       0.66      8.27
#"order"                    0.08     1.00       0.08      1.00
#"unique"                   0.06     0.75       4.54     56.89
#
#$sampling.time
#[1] 7.98

它首先sort输入向量funique值,然后将f转换为字符向量,最后使用factor将字符向量强制返回一个因子。以下是factor的源代码以供确认。

代码语言:javascript
运行
复制
function (x = character(), levels, labels = levels, exclude = NA, 
    ordered = is.ordered(x), nmax = NA) 
{
    if (is.null(x)) 
        x <- character()
    nx <- names(x)
    if (missing(levels)) {
        y <- unique(x, nmax = nmax)
        ind <- sort.list(y)
        levels <- unique(as.character(y)[ind])
    }
    force(ordered)
    if (!is.character(x)) 
        x <- as.character(x)
    levels <- levels[is.na(match(levels, exclude))]
    f <- match(x, levels)
    if (!is.null(nx)) 
        names(f) <- nx
    nl <- length(labels)
    nL <- length(levels)
    if (!any(nl == c(1L, nL))) 
        stop(gettextf("invalid 'labels'; length %d should be 1 or %d", 
            nl, nL), domain = NA)
    levels(f) <- if (nl == nL) 
        as.character(labels)
    else paste0(labels, seq_along(levels))
    class(f) <- c(if (ordered) "ordered", "factor")
    f
}

因此,函数factor实际上是为处理字符向量而设计的,它将as.character应用于其输入以确保这一点。我们至少可以从上面学到两个与性能相关的问题:

对于数据帧函数,如果很多列都很容易转换,那么

  1. DF就会比lapply(DF, factor)快得多。factor is factor可以解释为什么一些重要的R函数很慢,比如tablelapply(DF, as.factor)

性能:当输入为整数时,as.factor > factor

因子变量是整数变量的近亲。

代码语言:javascript
运行
复制
unclass(gl(2, 2, labels = letters[1:2]))
#[1] 1 1 2 2
#attr(,"levels")
#[1] "a" "b"

storage.mode(gl(2, 2, labels = letters[1:2]))
#[1] "integer"

这意味着将整数转换为因子比将数字/字符转换为因子更容易。as.factor只负责这件事。

代码语言:javascript
运行
复制
x <- sample.int(1e+6, 1e+7, TRUE)

system.time(as.factor(x))
#   user  system elapsed 
#  4.592   0.252   4.845 

system.time(factor(x))
#   user  system elapsed 
# 22.236   0.264  22.659 

未使用的级别或NA级别

现在让我们看一些关于factoras.factor对因子水平的影响的例子(如果输入已经是一个因子)。Frank已经给出了一个未使用的因子水平,我将提供一个具有NA水平的。

代码语言:javascript
运行
复制
f <- factor(c(1, NA), exclude = NULL)
#[1] 1    <NA>
#Levels: 1 <NA>

as.factor(f)
#[1] 1    <NA>
#Levels: 1 <NA>

factor(f, exclude = NULL)
#[1] 1    <NA>
#Levels: 1 <NA>

factor(f)
#[1] 1    <NA>
#Levels: 1

有一个(通用的)函数droplevels可用于删除因子的未使用级别。但默认情况下不能删除NA级别。

代码语言:javascript
运行
复制
## "factor" method of `droplevels`
droplevels.factor
#function (x, exclude = if (anyNA(levels(x))) NULL else NA, ...) 
#factor(x, exclude = exclude)

droplevels(f)
#[1] 1    <NA>
#Levels: 1 <NA>

droplevels(f, exclude = NA)
#[1] 1    <NA>
#Levels: 1

使用R的group-by函数时要注意:注意未使用的或NA级别

R执行分组操作的函数,如splittapply希望我们将因子变量作为"by“变量提供。但我们通常只提供字符或数字变量。因此,在内部,这些函数需要将它们转换为因子,并且它们中的大多数可能会首先使用as.factor (至少对于split.defaulttapply是这样)。table函数看起来像是一个异常,我在里面发现了factor而不是as.factor。可能有一些特殊的考虑因素,不幸的是,当我检查它的源代码时,这一点对我来说并不明显。

由于大多数group-by R函数都使用as.factor,因此如果给它们一个未使用或NA级别的因子,结果中就会出现这样的group。

代码语言:javascript
运行
复制
x <- c(1, 2)
f <- factor(letters[1:2], levels = letters[1:3])

split(x, f)
#$a
#[1] 1
#
#$b
#[1] 2
#
#$c
#numeric(0)

tapply(x, f, FUN = mean)
# a  b  c 
# 1  2 NA 

有趣的是,尽管table不依赖于as.factor,但它也保留了那些未使用的级别:

代码语言:javascript
运行
复制
table(f)
#a b c 
#1 1 0 

有时,这种行为可能是不受欢迎的。一个典型的例子是barplot(table(f))

如果这确实是不需要的,我们需要使用droplevelsfactor从因子变量中手动删除未使用的或NA级别。

提示:

  1. split有一个参数drop,它缺省为FALSE,因此使用as.factor;通过drop = TRUE函数factor使用instead.
  2. aggregate依赖于split,所以它也有一个drop参数,它缺省为TRUE.
  3. tapply没有drop,尽管它也依赖于split。特别是,documentation ?tapply说(总是)使用as.factor
票数 105
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39279238

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档