首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

「R」数据操作(七):dplyr 操作变量与汇总

这些函数的一个关键属性就是向量化的:它必须使用一组向量值作为输入,然后返回相同长度的数值作为输出。我们没有办法将所有的函数都列举出来,这里选择一些被频繁使用的函数。...= TRUE)) #> # A tibble: 1 x 1 #> delay #> #> 1 12.6 除非我们将summarize()与group_by()配对使用,不然summarize...有用的汇总函数 仅仅使用均值、计数和求和这些函数就可以帮我做很多事情,但R提供了许多其他有用的汇总函数: 位置度量 我们已经使用过mean()函数求取平均值(总和除以长度),median()函数也非常有用...# 为何到某些目的地航班的距离比其他存在更多变异 not_cancelled %>% group_by(dest) %>% summarize(distance_sd = sd(distance...要对唯一值进行计数,使用n_distinct(): # 哪个目的地有最多的carrier not_cancelled %>% group_by(dest) %>% summarize

2.6K20

课程复习----多样本进行共定位分析

参考文章在10X空间转录组数据分析之细胞的空间依赖性每个空间样本分析完,都会拿到如下的结果,大家每个样本放在一个文件夹下面,每种细胞类型与其他细胞类型的空间共定位分数。...接下来多样本合并,其实就是合并共定位分数矩阵,大家分析因为命名的不同,所以内部脚本的变量和列名有差异,但是抓住一点,每个样本都分析到了一种细胞类型和其他所有细胞类型的共定位分数,我们的目的是将每个样本的共定位分数...merge起来,求平均值,即为该组的细胞共定位分析结果,下面是代码示例。...(view, Predictor, Target, Disease) %>% #group_by(Predictor, Target, Disease) %>% summarize(mean_importance...(view, Predictor, Target, Disease) %>% #group_by(Predictor, Target, Disease) %>% summarize(mean_importance

14720
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    生信代码:数据处理( tidyverse包)

    )——汇总数据 而这些函数都可以与group_by结合,分组对原数据框进行处理。...x2 detach(mydata) ##dplyr mydata %>% mutate(sumx=x1+x2, meanx=sumx/4)##dplyr允许使用管道...() summarize()主要用于统计,往往与其他函数配合使用,比如计算所有同学考试成绩的均值: df %>% filter(type=="english")%>% summarize(...mean_english==mean(score) sd_english=sd(score) ) ##summarize返回的是一个新的数据框,如果后续要使用到,...() group_by可以对原数据框进行分组计算,例如对于我们本文中的数据框,我们如果对个人或者科目感兴趣的话,可以使用group_by(name或者type),然后利用summarize函数就可以求出分类之后的各个统计值

    2.1K10

    教你几招R语言中的聚合操作

    在R语言中提供了几种实现数据聚合的常用函数,它们分别是基于stats包中的aggregate函数、基于sqldf包中的sqldf函数以及基于dplyr包中的group_by函数和summarize函数。...:指定FUN函数的其他参数值; simplify:bool类型的参数,是否将聚合结果以简洁的向量或矩阵形式输出,默认为TRUE; drop:bool类型的参数,是否删除无用的组合值(即通过by参数完成的变量组合...; password:指定访问数据库所需的密码: host:指定访问数据库所需的服务器名称; port:指定访问数据库所需的端口号; 下面以上海二手房数据为例,分别统计浦东新区、黄浦区、徐汇区、长宁区和静安区中二手房的数量...基于group_by和summarize函数的聚合 ---- 结合dplyr包中的group_by函数和summarize函数实现数据的分组聚合可以避开aggregate函数和sqldf函数的一些缺点,...其中group_by函数用于指定分组变量,summarize函数用于指定具体的聚合过程,关于这两个函数的用法及参数含义如下: group_by(.data, ..., add = FALSE) .data

    3.3K20

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    对于即将合并的新列,需要使用引号;但对于想要合并的多个列名,可以不用使用引号。sep 参数设定多列合并后不同数据分隔使用的分割符。...extract 除了seperate 外,函数 extract() 可以按照某种正则表达式表示的模式从指定列拆分出对应于正则表达式中捕获组的一列或多列内容。...R 数据整理(六:根据分类新增列的种种方法 1.0) 其他函数 slice dplyr 包的函数 slice(.data, ...) 可以用来选择指定序号的行子集,正的序号表示保留,负的序号表示排除。...其他还有几个变形: summarize_if 对列筛选,进行汇总: d.cancer %>% summarise_if( is.numeric, list(avg = ~mean(.), std = ~...group_by 按照某列对数据框进行分组,非常适合联合summarize 使用,获取指定组别不同类型内容的统计数值。

    10.9K30

    R数据科学|3.6习题解答

    问题一 通过头脑风暴,至少找出 5 种方法来确定一组航班的典型延误特征。思考以下场景。 一架航班 50% 的时间会提前 15 分钟,50% 的时间会延误 15 分钟。...找出另外一种方法,这种方法要可以给出与not_cancelled %>% count(dest) 和 not_ cancelled %>% count(tailnum, wt = distance)同样的输出(不能使用...(提示:考虑一下flights %>% group_by(carrier, dest) %>% summarize(n())。)...更好的分析方法是将一家航空公司航班的平均延误与同一航线内所有其他航空公司航班的平均延误进行比较。 flights %>% filter(!...何时应该使用这个参数? 解答 排序参数,以对结果进行排序。想对结果排序的时候都可以使用sort。

    3.8K30
    领券