首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

R语言数据处理:飞机航行距离与到达延误时间有什么关系??

2.2 列名重命名 为了让列名简单易懂,可以使用rename函数,进行列名重命名。...3.2 应用函数及组合结果 我们使用dplyr包中的summarize()函数,进行数据统计指标的获取及组合。计算出不同目的地的平行航行距离以及平均延误时间。...PS.这里穿插一个好用的工具,“管道”,即通过使用操作符把数据集名作为开头, 然后依次对此数据进行多步操作。...通过管道的连接方式,让数据或表达式的传递更高效,使用向右操作符%>%,可以直接把数据传递给下一个函数调用或表达式。...由上图,我们就可以初步分析航程延误时间并非线性关系,至于这种非线性关系该怎么解释,仍需进一步统计调查分析。

3K40

R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

="Hospice"] (3)还有一些复杂结构: dt[a=='B' & c2>3, b:=100] #其他结构 在dt数据集中,筛选a变量等于"B",c2变量大于3,同时添加b变量,数值等于...(gender,buy_online)] #data.table用一步 dplyr:先用group_by设置分组,然后利用summarize求平均,mean=mean(); data.table...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的,传递给下一个函数的第一个参数,然后就不用写第一个参数了。在dplyr分组求和的过程中,还是挺有用的。...from_dplyr=try %>% group_by(gender,buy_online) %>% summarize(mean=mean(new_car)) ————————————————————...data[,1]是不行的,选中列的方式是用列名。于是只能借助get+names的组合。 for (i in 1:5){ data[,.

7.5K43

「R」数据操作(七):dplyr 操作变量与汇总

这些函数的一个关键属性就是向量化的:它必须使用一组向量值作为输入,然后返回相同长度的数值作为输出。我们没有办法所有的函数都列举出来,这里选择一些被频繁使用的函数。...) #> # A tibble: 1 x 1 #> delay #> #> 1 12.6 除非我们summarize()与group_by()配对使用,不然summarize(...上述代码分三步进行了数据准备: 按目的地航班分组 汇总计算距离、平均延时航班数目 移除噪声点Honolulu航班,它太远了。...有时候整合聚集函数逻辑操作符是非常有用的: not_cancelled %>% group_by(year, month, day) %>% summarize( #...例如,我们想找到每天起飞的第一班最后一班飞机: not_cancelled %>% group_by(year, month, day) %>% summarize(

2.5K20

教你几招R语言中的聚合操作

在R语言中提供了几种实现数据聚合的常用函数,它们分别是基于stats包中的aggregate函数、基于sqldf包中的sqldf函数以及基于dplyr包中的group_by函数summarize函数。...connection = getOption("sqldf.connection"), verbose = isTRUE(getOption("sqldf.verbose"))) x:指定SQL语句,并且以字符串形式写入...徐汇','长宁','静安') group by region", # 聚合统计的SQL语法 drv = 'SQLite', # 选择SQLite作为...基于group_bysummarize函数的聚合 ---- 结合dplyr包中的group_by函数summarize函数实现数据的分组聚合可以避开aggregate函数sqldf函数的一些缺点,...其中group_by函数用于指定分组变量,summarize函数用于指定具体的聚合过程,关于这两个函数的用法及参数含义如下: group_by(.data, ..., add = FALSE) .data

3.3K20

R语言数据分析笔记——Cohort 存留分析

最近在尝试学习 Cohort 用户存留分析时,找到了国外一个数据分析爱好者Cohort 存留分析的Python版本完整代码,并且很良心到的提供了练习数据,作为一个R比Python要熟练的菜鸟分析师,自然是首先想到如何把这个代码翻译成...(UserId) %>% summarize( CohortGroup = min(OrderDate)) #计算用户首购日期 CohortGroup...CohortGroup$CohortGroup %>% format('%Y-%m') df % left_join(CohortGroup,by = 'UserId') #首购日期与原始订单表合并对齐...summarize( UserId = n_distinct(UserId), OrderId = n_distinct...存留分析是互联网数据分析运用中经常会用到分析工具,本节的R代码是源于篇首Python代码的思路,大家可以对比两者的优劣,作为今后分析使用的参考资料。

1.3K20

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言,数据处理是其一大特色功能,事实上每一个处理任务在R语言中都有着不止一套解决方案(这通常也是初学者在入门R语言时,感觉内容太多无从下手的原因),当然这些不同方案确实存在着性能效率的绝大差异...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了行索引、列切片、分组功能于一体的数据处理模型。...dplyr::fliter() %>% select() %>% group_by() %>% summarize() 虽然可以借助管道函数进行代码优化,但是仍然无法与data.table的简洁想抗衡。...(carrier,tailnum)] #但心里要清楚列索引接受的条件是含有列表的列表,而且这里的列表作为变量给出,而非data.frame时代的字符串向量。 行列同时索引毫无压力。...注意以上新建列时,如果只有一列,列名比较自由,写成字符串或者变量都可以,但是新建多列,必须严格按照左侧列名字符串向量,右侧为列表的模式,当然你也可以使用第二种写法。

3.6K80
领券