首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

「R」数据操作(七):dplyr 操作变量与汇总

让我们看另一个例子:棒球运动中击球手的平均表现与上场击球次数的关系。这里我们使用来自Lahman包的数据计算每个选手平均成功率(击球平均得分数,击球数/尝试数)。...当我画出击球手技能(用成功率衡量)与击球的机会数关系时,你会看到两种模式: 数据点越多,变异越少 选手技能和击球机会成正相关关系。...有时候整合聚集函数和逻辑操作符是非常有用的: not_cancelled %>% group_by(year, month, day) %>% summarize( #...(也称为标准差或简写为sd),是分布的标准度量;IQR()计算四分位数极差;mad()计算中位绝对离差(存在离群点时,是更稳定的IQR值等价物)。..., dest , air_time , distance , hour , #> # minute , time_hour 标准化来计算每组的指标

2.6K20

dpois函数_frequency函数

dplyr时group_by()和summarize()是同时使用最常用的工具之一:分组概括。...这种模式还有另一种常见的变化。让我们来看看棒球击球手的平均表现如何与他们击球的次数有关。在这里,使用来自拉赫曼包的数据来计算每个大联盟棒球运动员的击球率(击球次数/尝试次数)。...当绘制击球手的技能(按击球平均数,ba测量)与击球的机会数(ab测量)时,会看到两种模式: 如上所述,随着我们获得更多数据点,我们聚合的变化会减少。...均方根偏差或标准差sd(x)是离散的标准度量。四分位数范围IQR(x)和中位数绝对偏差mad(x)是稳健的等价物,如果有异常值可能会更有用。...当与数字函数一起使用时,TRUE转换为1,FALSE转换为0。这使得sum()和mean()非常有用:sum(x)给出x中的TRUE数,而mean(x)给出比例。

1.8K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    100000个故事的情节分析:一个简单案例

    这种结构可以用单词的量化结构来表现-- 有些词汇应该被期望在开始时出现,而一些词词则在应该在结尾出现。 一个简单的测量方法,我们将记录每个单词的位置的中值,同时也记录它出现的次数。...% group_by(word) %>% summarize(median_position = median(word_position), number = n())...“ 可视化词汇趋势 中值的方法为我们提供了一个有用的汇总统计信息,让我们仔细研究下统计信息的内容。首先,我们将每个故事分成几个十分位数(前10%,后10%等),并计算每个单词在每个十分位数内的次数。...情感分析 我们关于故事情节中不断上升的紧张局势和冲突的这一假设,得到了证实。可以用情感分析来发现每个故事不同10分位的平均情感得分。...我们如何深入洞悉这些情节) 通过本文我希望你能掌握这些在大型文本据数集上快速量化分析(计数,采用中位数)故事结构的能力。接下来的文章中我会深入挖掘这些情节,来看看我们还能得到哪些信息。

    1.9K50

    R数据科学|3.7内容介绍及习题解答

    3.7 分组新变量(和筛选器) 虽然与summarize()函数结合起来使用是最有效的,但分组也可以与mutate()和filter()函数结合,以完成非常便捷的操作。...一般不使用分组筛选器,除非是为了完成快速、粗略的数据处理,否则很难检查数据处理的结果是否正确。 在分组新变量和筛选器中最常使用的函数称为窗口函数(与用于统计的摘要函数相对)。...你可以在相应的使用指南中学习到更多关于窗口函数的知识:vignette("windowfunctions")。 习题解答 问题一 查看常用的新变量函数和筛选函数的列表。...解答 我筛选至少飞行了20次的飞机。选择20是因为它是接近飞机飞行次数的上四分位数。...使用 lag() 函数探究一架航班延误与前一架航班延误之间的关系。 解答 #计算同一机场前一航班的起飞延误。

    4.2K32

    生信代码:数据处理( tidyverse包)

    df %>% select(start_with("n")) 3 filter() filter()是对数据行方向的选择和筛选,选出符合我们条件的某些行: df %>% filter( type==..."english", score>85) df %>% filter( between(score, 80, 90)) 4 summarize() summarize()主要用于统计,往往与其他函数配合使用...,比如计算所有同学考试成绩的均值: df %>% filter(type=="english")%>% summarize( mean_english==mean(score...) sd_english=sd(score) ) ##summarize返回的是一个新的数据框,如果后续要使用到,需要保存下来 5 arrange() R base...() group_by可以对原数据框进行分组计算,例如对于我们本文中的数据框,我们如果对个人或者科目感兴趣的话,可以使用group_by(name或者type),然后利用summarize函数就可以求出分类之后的各个统计值

    2.1K10

    数据处理|R-dplyr

    Width) #计算一个或多个新列并删除原列 6)数据汇总 summarize()函数实现数据集聚合操作,将多个值汇总成一个值 summarise(iris,avg = mean(Sepal.Length...7)数据分组 group_by函数对数据进行分组后,结合summarize函数,可以对分组数据进行汇总统计。...Q:按品种分组,分别计算花萼宽度的均方差 summarise(group_by(iris,Species),sd=sd(Petal.Width)) 8)连接操作符 dplyr包里还新引进了一个操作符,%...11)数据合并 dplyr包中也添加了类似cbind()函数和rbind()函数功能的函数,它们是bind_cols()函数和bind_rows()函数。...注意:bind_rows()函数需要两个合并对象有相同的列数,而bind_cols()函数则需要两个合并对象有相同的行数。

    2K10

    「R」数据可视化6 : 曼哈顿图

    本系列文章将介绍多种基于不同R包的作图方法,希望能够帮助到各位读者。 什么是曼哈顿图 曼哈顿图是一种散点图,通常用于显示具有大量数据点,许多非零振幅和更高振幅值分布的数据。...GWAS中常见的曼哈顿图 在图中每个点代表一个SNP,纵轴为每个SNP计算出来的Pvalue取-log10,横轴为SNP所在的染色体。...而且通常来说受到连锁不平衡的影响,强关联位点周围的SNP也会显示出相对较高的信号强度,并依次向两边递减,所以会出现上图中红色部分的现象。...那么使用ggplot要如何作图呢? 这里我们要对数据进行一点整理,需要用到一个十分实用的符号,我们称其为管道符号%>%,该符号的作用是可以将上一步的结果直接传输给下一步,像一个管道进行连接。...(CHR) %>% summarize(center=( max(BPcum) + min(BPcum) ) / 2 ) 然后画图的时候geom_point在颜色上进行区分,并使用geom_label_repel

    3.1K20

    R数据科学|3.6内容介绍

    上节我们对选择现有的列和使用mutate添加新列做了介绍。现在对数据框使用summarize()进行分组摘要进行介绍。...group_by() 和 summarize()的组合构成了使用 dplyr 包时最常用的操作之一:分组摘要。...例如,如果对按日期分组的一个数据框应用与上面完全相同的代码,那么我们就可以得到每日平均延误时间: by_day group_by(flights, year, month, day) summarize...现在我们使用代码来讲述小兔福福的故事: 一只小兔叫福福蹦蹦跳跳过森林抓起一窝小田鼠每只头上打一下首先,我们定义一个对象来表示小兔福福: foo_foo <- little_bunny() 然后,我们使用函数来表示每个动作...于是这首童谣可以如下表示,这种方法的最大缺点是,你必须为每个中间结果建立一个变量,在很多情况下,比如在本例中,这些变量其实是没有什么实际意义的,你还必须使用数字后缀来区分这些变量: foo_foo_1

    1K20

    教你几招R语言中的聚合操作

    前言 ---- 在数据处理和分析过程中,可能会涉及到数据的聚合操作(可理解为统计汇总),如计算门店每天的营业总额、计算各地区的二手房的平均价格、统计每个消费者在近半年内最后一笔交易时间等。...如果基于数据库SQL的语法来解决这些问题,将会显得非常简便,如果没有数据库环境该如何实现类似聚合问题的解决呢?...在R语言中提供了几种实现数据聚合的常用函数,它们分别是基于stats包中的aggregate函数、基于sqldf包中的sqldf函数以及基于dplyr包中的group_by函数和summarize函数。...基于group_by和summarize函数的聚合 ---- 结合dplyr包中的group_by函数和summarize函数实现数据的分组聚合可以避开aggregate函数和sqldf函数的一些缺点,...而且使用起来也非常的方便和快捷。

    3.3K20

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    我们可以使用tidyverse 系统来操作,其中包括了magrittr 包,readr 包,dplyr 包和 tidyr 包等。...按列号 select(test,1) select(test,c(1,5)) 按列名 如果想要用向量来存放希望筛选的列名,需要使用函数 one_of 来存放该向量。...使用统计相关参数计算列表内相关内容。如sum, mean, median, min, max。...比如,需要对 cancer 数据集中 v0 和 v1 两个变量同时计算平均值和标准差: 显然,如果有许多变量要计算不止一个统计量,就需要人为地将每一个变量的每一个统计量单独命名。...group_by 按照某列对数据框进行分组,非常适合联合summarize 使用,获取指定组别不同类型内容的统计数值。

    10.9K30

    R语言数据分析笔记——Cohort 存留分析

    最近在尝试学习 Cohort 用户存留分析时,找到了国外一个数据分析爱好者Cohort 存留分析的Python版本完整代码,并且很良心到的提供了练习数据,作为一个R比Python要熟练的菜鸟分析师,自然是首先想到如何把这个代码翻译成...2、数据清洗: 存留分析使用到的字段只有购买日期、用户ID等信息,分析月度存留,需要将日期规范化成年月形式,同时按照客户id分组,计算出用户首次购买的日期,代码如下: 2.1 创建购买月份字段 df$OrderPeriod...summarize( CohortGroup = min(OrderDate)) #计算用户首购日期 CohortGroup$CohortGroup <- CohortGroup...、总订单数、总支付金额(用户ID要去重) chorts % group_by(CohortGroup,OrderPeriod) %>% summarize(...存留分析是互联网数据分析和运用中经常会用到分析工具,本节的R代码是源于篇首Python代码的思路,大家可以对比两者的优劣,作为今后分析使用的参考资料。

    1.4K20

    左手用R右手Python系列——七周数据分析师学习笔记R语言、Python版

    MySQL入门学习笔记——七周数据分析师实战作业 这一篇,仍然是相同的六个业务问题,我尝试着R语言、Python复盘一遍,这样你可以对比同样的业务逻辑,使用不同工具处理之间的效率、逻辑的差异,以及各自的优缺点...本次分析的五个问题: 1、统计不同月份的下单人数; 2、统计用户三月份回购率和复购率 3、统计男女用户消费频次是否有差异 4、统计多次消费的用户,第一次和最后一次消费间隔是多少?...) %>% group_by(gender) %>% summarize(mean_sp=mean(num_sp)) #按照性别聚合出男女平均购买频次...= '') %>% group_by(trend) %>% summarize(mean_price=mean(price,na.rm=TRUE)) %>%...= '') %>% group_by(userId) %>% summarize(sum_sp=sum(price)) %>% arrange

    1.6K60
    领券