首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

R数据科学|3.5内容介绍及习题解答

下面介绍一些比较常用创建函数: 算术运算符:+、-、*、/、^ 它们都是向量使用所谓“循环法则”。如果一个参数比另一个参数短,那么前 者会自动扩展到同样长度。...8 9 10 NA 累加和滚动聚合 R提供了计算累加和、累加积、累加最小值和累加最大值函数cumsum()、cumprod()、commin()和cummax();dplyr 还提供了cummean...默认排秩方式是,最小值获得最前面的名次,使用desc(x)可以让最大值获得最前面的名次: y <- c(1, 2, 2, NA, 3, 4) min_rank(y) #> [1] 1 2 2 NA...object length is not a multiple of shorter object #> length #> [1] 2 4 6 5 7 9 8 10 12 11 当两个向量相加...该代码还发出一个警告,即较短向量不是较长向量倍数。当发生这种情况,会发出警告,因为这通常是无意,可能是错误。

2.5K50

R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

2.8 mutate 可以为数据框计算变量,返回含有新变量以及原变量新数据框: mutate(test, new = Sepal.Length * Sepal.Width) > head(test,...按列号 select(test,1) select(test,c(1,5)) 按列名 如果想要用向量来存放希望筛选列名,需要使用函数 one_of 来存放该向量。...对于待分离对象(col),不必加上引号;但对于即将创建新列(into),需要使用引号,由于是两列,这里使用向量创建。sep参数设定读取表格信息以何符号作为分隔符。...使用统计相关参数计算列表内相关内容。如sum, mean, median, min, max。...比如,需要对 cancer 数据集中 v0 和 v1 两个变量同时计算平均值和标准差: 显然,如果有许多变量计算不止一个统计量,就需要人为地将每一个变量每一个统计量单独命名。

10.7K30

R语言数据集合并、数据增减、不等长合并

merge 按照指定列合并矩阵或者数据框 一、数据合并 1、merge()函数 最常用merge()函数,但是这个函数使用时候这两种情况需要注意: 1、merge(a,b),纯粹地把两个数据集合在一起...命令是让这两个向量粘合在一起生成新字符串向量,粘合后新字符之间没有间隔。...,") #不同向量合并在一起,但是变成一个向量 mode(b) #变量类型 mode(c) 4、cbind和rbind函数 cbind()和rbind(),cbind()按照纵向方向...rbind()按照横向方向,或者说按行方式将矩阵连接到一起 rbind/cbind对数据合并要求比较严格:合并变量名必须一致;数据等长;指标顺序必须一致。...,dou4=4*survived) Hdma_dat$dou=a$dou Hdma_dat$dou4=a$dou4 #两个新序列,加入到Hdma数据集汇总 筛选变量服从某值子集 subset(airquality

13K12

R 数据整理(六:根据分类新增列种种方法 1.0)

对于待分离对象(col),不必加上引号;但对于即将创建新列(into),需要使用引号,由于是两列,这里使用向量创建。sep参数设定读取表格信息以何符号作为分隔符。...按列号 select(test,1) select(test,c(1,5)) 按列名 如果想要用向量来存放希望筛选列名,需要使用函数 one_of 来存放该向量。...使用统计相关参数计算列表内相关内容。如sum, mean, median, min, max。...4.498195 3.871712 9.152436 3.468464 > identical(pull(g, sample1), g$sample1) [1] TRUE 小进阶 count 计算向量或数据框中某列重复值...arrange(x2,Sepal.Length) 如果依靠变量传递,每一步都需要将结果指定若干个中间变量,再将指定这些中间变量,作为输入值传递给下一个值。

2K20

「Workshop」第二期:程序控制与数据操作流

one_of matches 行筛选 slice, filter, sample_n, sample_frac, top_n, distinct 列筛选 select 排序 arrange 行列增加/更新 基本数学和比较逻辑运算符..., column_to_rowname 向量化函数 汇总 计数 dplyr:: n n_distinct base::sum(!...is.na()) 位置 mean, meadian 逻辑值 mean, sum 位置 dplyr:: first last nth 排序 quantile min max 分布 IQR mad sd var...write_* data.table 与 base 数据导入 fread 数据导出 fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致,也可以使用...正则表达式与字符串处理:base 与 stringr 列表处理与迭代计算:purrr 统计建模:stats 与 broom 绘图:graphics 与 ggplot2 函数编程:apply家族和purrr

1.5K30

R语言数据处理:飞机航行距离与到达延误时间有什么关系??

这一点,我想大部分使用EXCEL童鞋都深有体会,写论文,这么多数据进行处理,手动汇总、筛选、变换,工作量实在是太大。...带着这个问题,我们将首先使用dplyr包对给出航班数据进行处理。...is.na(dep_delay),!is.na(arr_delay)) myFlights 由图可知,我们首先采用is.na()函数找出缺失值,再采用逻辑运算符“!...3.2 应用函数及组合结果 我们使用dplyr包中summarize()函数,进行数据统计指标的获取及组合。计算出不同目的地平行航行距离以及平均延误时间。...这种运算编写方式使得编程者可以按数据处理思路写代码, 一步一步操作不断叠加,在程序上就可以非常清晰体现数据处理步骤与背后逻辑。

3K40

这些逻辑运算符你都使用正确了吗?

逻辑运算是数学运算重要组成部分,但其更是计算计算底层设置。作为一门数据处理语言,逻辑运算在R中承担着非常非常重要作用。本专题就专门为大家整理一下R语言中逻辑运算:TRUE/FALSE....”运算(x、y以及运算结果都是向量) X | y向量逻辑“或”运算(x、y以及运算结果都是向量) x && y标量逻辑“与”运算(返回标量) x ||...上表中逻辑“与”【&】和逻辑“或”【 | 】是对向量逻辑运算(虽然单个标量也适用),但其返回结果是逻辑向量,是对逻辑运算每一组元素进行逻辑运算后返回结果。...因此,此处引入另外两个不常用但需要了解逻辑运算符: x&&y:标量逻辑“与”运算,判断逻辑x和y中只要包含一个"&"运算TRUE行即返回TRUE标量 x||y :标量逻辑“或”运算,判断逻辑向量...) > #---比较&与&&---# > x&y [1] TRUE FALSE FALSE FALSE > > x&&y #对比第9行结果可以发现,在逻辑向量逻辑运算中只要包含一个"&"运算TRUE

99120

「R」数据操作(五):dplyr 介绍与数据过滤

准备 这部分我们聚焦于如何使用dplyr包,除ggplot2另一个tidyverse核心成员。我们将使用nyclights13数据包解释关键概念并使用ggplot2帮助理解数据。...## lag(): dplyr, stats 注意一下你导入tidyverse包给出冲突信息(Conflicts),它告诉你dplyr覆盖了R基础包中函数。...它们描述了每个变量类型: int代表整数 dbl代表浮点数或者实数 chr代表字符向量或者字符串 dttm代表日期-时间 还有其他三种数据类型在本部分不会使用到,但后续我们会接触: lgl代表逻辑向量...另一个你在使用==可能遭遇常见问题是浮点数。...)对于R而言,它会先计算11|12得到1,然后计算month == 1,这就不是我们需要了!

2.4K11

R 语言 逻辑运算:TRUEFALSE | 专题3

逻辑运算是数学运算重要组成部分,但其更是计算计算底层设置。作为一门数据处理语言,逻辑运算在R中承担着非常非常重要作用。本专题就专门为大家整理一下R语言中逻辑运算:TRUE/FALSE....”运算(x、y以及运算结果都是向量) X | y向量逻辑“或”运算(x、y以及运算结果都是向量) x && y标量逻辑“与”运算(返回标量) x ||...上表中逻辑“与”【&】和逻辑“或”【 | 】是对向量逻辑运算(虽然单个标量也适用),但其返回结果是逻辑向量,是对逻辑运算每一组元素进行逻辑运算后返回结果。...因此,此处引入另外两个不常用但需要了解逻辑运算符: x&&y:标量逻辑“与”运算,判断逻辑x和y中只要包含一个"&"运算TRUE行即返回TRUE标量 x||y :标量逻辑“或”运算,判断逻辑向量...) > #---比较&与&&---# > x&y [1] TRUE FALSE FALSE FALSE > > x&&y #对比第9行结果可以发现,在逻辑向量逻辑运算中只要包含一个"&"运算TRUE

5.3K10

R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

data.table包提供了一个非常简洁通用格式:DT[i,j,by],可以理解为:对于数据集DT,选取子集行i,通过by分组计算j。...同时设置两个key变量方式,也是可以。 查看数据集是否有key方式: key(data) #检查该数据集key是什么?...在筛选列变量数据,也可以与%in%集合运算联用(集合运算见博客:R语言︱集合运算)。...DT数据集按照x分组,然后计算v变量和、最小值、最大值。 (2)dplyr函数利用%>%(链式操作)来改进: 链式操作是啥意思呢?...2016-11-28补充: 留言区大神给了一个比较好选中列方式,其中主要就是对with使用: data.table取列,可以用data[,1,with=FALSE]取data第一列

7.4K43

教你几招R语言中聚合操作

前言 ---- 在数据处理和分析过程中,可能会涉及到数据聚合操作(可理解为统计汇总),如计算门店每天营业总额、计算各地区二手房平均价格、统计每个消费者在近半年内最后一笔交易时间等。...数值聚合 aggregate(formula, data, FUN, ..., subset, na.action = na.omit) x:指定待分组聚合数值型数据,可以是向量也可以是数据框...variable3作聚合统计; data:指定需要分组统计数据框或列表; subset:通过可选向量指定data数据子集用于分组聚合; na.action:指定缺失值处理办法,默认为删除缺失值;...尽管sqldf函数可以借助于SQL语法实现数据聚合,但是使用该函数容易产生异常错误,例如参数drv值指定错误,就会导致sqldf函数无法生成结果(根据经验,参数drv值设置为’SQLite’,...:以“variable_name = aggregate_fun(variable)”形式表达聚合过程,其中等号左边变量表示聚合后变量名,等号右边是基于某个变量作聚合函数运算; 下面以Titanic

3.3K20

「R」Robust Rank Aggregation 算法介绍

计算:对于基因i标准化后排名向量里排名第jrij’,r(null)j’ <= rij’概率。 如果一个基因一共在n个样本内出现,则其排名向量内有n个排名,所以假设检验后也会获得n个p值。...原文建议可以使用bonferroni校正rho score,得到padj很接近p值上界。...名单我随便百度一个,104人)。可以看到比如马天宇,只有两个表收录了。再比如胡歌,两个排名不错,但还有一个榜排名就比较靠后。要怎么根据这些排名整合一个相对可以用来参考综合排名呢? ?...但有时候如果最后剩下candidate太少,也并不是我们想要结果。 「方案2:rra」 先构建一个list,把排名后名单存进去。 #使用dplyrarrange对列表排名。...因为我把数据整合在了一张总表里,所以排名先挑出对应榜单,然后去掉na,再根据Rank排名,之后只取排名后明星名字。以character形式保存。

5.9K61

R语言入门(一)之数据处理

写在前面:公众号又被我搁置好久,闲来无事,写写近期学R语言吧,主要分为两个部分写,一主要为数据处理,二为ggplot作图。...b1=aggregate(a1air.hole, list(a1chemical), mean) #aggregate(需要被计算内容,分类项,计算函数) aggregate(air.hole~chemical..., data=b1, mean) #aggregate(因变量~自变量,数据,计算函数) ?...str(a1) #以简洁方式显示对象数据结构及内容 summary(a1) #可以提供最小值、最大值、四分位数和数值型变量均值,以及因子向量和逻辑型向量频数统计 ?...table(a1$chemical) table(a1$chemical, useNA = "ifany") #求因子出现频数;table()函数默认忽略缺失值(NA),要在频数统计中将NA视为一个有效类别

10K40

R语言 常见函数知识点梳理与解析 | 精选分析

) 13、ls( )用来列出现存所有对象 常见函数列表 14、数据管理相关 15、字符串处理函数 16、因子 17、数学计算 18、数组相关 19、逻辑运算 20、控制结构相关 21、自定义函数相关...dplyr、tidyr | 第4讲 R语言 控制流:for、while、ifelse和自定义函数function|第5讲 正 文 1、str() 显示数据集和变量类型,并简要展示数据集情况 > data...这一函数在去除数据框中缺失值很有用。...8 9 10 8、 split()根据因子变量拆分数据框/向量 split(x,f);x 可以为向量或者数据框,f 为对应因子,函数以列表形式返回 > x = data.frame(matrix...,&,&&,|,||,xor():逻辑运算符 logical:生成逻辑向量 all,any:逻辑向量都为真或存在真 ifelse():二者择一 match,%in%:查找 unique:找出互不相同元素

2.3K21

「R」数据操作(七):dplyr 操作变量与汇总

使用mutate()添加新变量 除了选择已存在列,另一个常见操作是添加新列。这就是mutate()函数工作了。 mutate()函数通常将新增变量放在数据集最后面。...为了看到新生成变量,我们使用一个小数据集。...这些函数一个关键属性就是向量:它必须使用一组向量值作为输入,然后返回相同长度数值作为输出。我们没有办法将所有的函数都列举出来,这里选择一些被频繁使用函数。...模运算(%/%和%%) %/%整除和%%取余。 对数 log(),log2()和log10() 位移量/偏移量 lead()和lag()允许你前移或后移变量值。...这个操作会将分析单元从整个数据集转到单个组别。然后,当你使用dplyr动词对分组数据框进行操作,它会自动进行分组计算

2.5K20
领券