首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R」Robust Rank Aggregation 算法介绍

之后就可以根据手上排名向量进行假设检验,来验证这个假设是否正确。...原文建议可以使用bonferroni校正rho score,得到padj很接近p上界。...示例 比如说,我们手上有一组内地男明星的人气排名排名纯随机,嗯。名单我随便百度一个,104人)。可以看到比如马天宇,只有两个表收录了。再比如胡歌,两个排名不错,但还有一个榜排名就比较靠后。...要怎么根据这些排名整合一个相对可以用来参考综合排名呢? ? 把这个表格存进R,变量名为stars 「方案1:」 每个榜取Top10,然后做交集。...但有时候如果最后剩下candidate太少,也并不是我们想要结果。 「方案2:rra」 先构建一个list,把排名名单存进去。 #使用dplyrarrange对列表排名

5.8K61

手把手教你用 R 语言分析歌词

R 语言文本挖掘》是两个很好资源。...一些研究甚至表明在排名第一热门歌曲使用词汇与美国三年级学生阅读水平是一致。是否可以使用文本挖掘、自然语言处理、机器学习或其他数据科学方法来对这样主题进行深入了解?...Unnest_token() 需要至少两个参数:输出名将被在文档取消后创建(本例 word), 输入保存当前文本(歌词) 你可以使用 prince 数据集,并导入 unnest_tokens()...然后根据计数结果,利用 reorder() 函数对词汇再度排名使用 dplyr mutate() 函数生成有序 word 变量。这方便使用 ggplot() 进行更友好展示。 ? ?...想获得更多乐趣的话,你可以加入一点数据美感。 ? 流行词汇 截至目前我们已经观察所有歌曲流行词汇。如果你根据打榜名次分组后会发生什么?在上榜歌曲和未上榜歌曲是否存在更流行词汇?

1.7K30
您找到你想要的搜索结果了吗?
是的
没有找到

《高效R语言编程》6--高效数据木匠

用法是:gather(data,key,value,-religion),分别是数据框,要转换成分类列名,单元列名和清除收集变量 使用seperate()分割联合变量 分割是指将一个实际由两个变量组成变量分割成两个独立...只是函数名多了个下划线那么简单? 正则表达式 R与stringr分别使用grepl()和str_detect()来进行,我比较喜欢基础R,不知你喜欢安装包还是用基本。...与基本R类似函数不同,变量无需使用 $ 操作符就可直接使用,设计与magrittr包%>%管道操作符一起使用,以允许每个数据阶段写成新一行。其是一个大型包,本身可以看成一门语言。...改名 rename(),使用反引号‘`’包裹,允许R使用不规范列名。...# 使用data.table()处理数据 是dplyr替代,两个哪个好存在争议,最好学一个一直坚持下去。如果两个都是新手,推荐dplyr

1.9K20

R&Python Data Science 系列:数据处理(3)

3 窗口函数 窗口函数,是对某操作,返回长度相同,主要包括排名函数、偏移函数、累计聚合函数。...R语言中窗口函数可以查看: 【R语言】窗口函数系列一:排名窗口函数 【R语言】窗口函数系列二:偏移窗口函数 【R语言】窗口函数系列三:聚合窗口函数 【R语言】窗口函数系列四:分布窗口函数 3.1...4 聚合函数 聚合函数是对某一数据,使用分组函数和排序函数进行处理之后(可以省略),使用聚合函数,返回一个。...注意:Pythonn()函数需要传入参数,R不需要传入参数;Python输出列按照字段名称升序排列,R输出按照书写顺序输出。...5 总结 数据处理1-3,主要介绍了Pythondfply和Rdplyr数据处理函数,几乎满足数据预处理筛选变量、衍生变量以及计算一些统计量需求。

1.3K20

R数据科学-1(dplyr

忘记保存,白费时间 效率低,时间长 现在,我们将学习对处理数据有用两个软件包: dplyr是用于简化表格数据操作软件包。 tidyr使您可以不同数据格式之间快速转换。...两个软件包命令都可以与管道函数(%>%)很好地配合使用,这可以使代码更具可读性。详细内容可参考Cheatsheet手册。...image.png image.png 1.数据框格式(DataFrame) 一般,我们excel包括行(col)与(row),在R语言中,经常对excel操作对象称之为Dataframe,那么在进行数据查看时候...,或者看gear不同水平下最大最小,那么就用到group_by()与 summarise() 函数。...譬如,对不同gear计算mpg均值及标准差。或者根据am及gear分组计算mpg均值标注差。

1.6K20

R||R语言基础(三)_R

今天继续学习R语言基础R使用,以R包:dplyr为例 数据准备 01 R安装 install.packages(“dplyr”) 或BiocManager::install(“dplyr”)...:102),] 这里“,”怎么理解呢,在我们上一期推文中提到,提取元素时z[x,y]指代提取z第x行,第y,如果我们只需要提取行,则应该写作z[x,],同理,如果只需要提取,应该写作z[,y]...() 按筛选 1)按号筛选 select(test,1) select(test,c(1,5)) #提取第一和第五 由上图可以看出直接提取也是可以 2)按列名筛选 select(test...其核心包有ggplot、readr、tibble、purrr、 tidyr 、dplyr、ggplot、forcats 和stringr8个. 我们这里用dplyr包,因此可以使用管道。...经过这几期R语言基础,你应该能够入门R了,渐渐也要自己去学会看帮助文档,去搜报错,还记得怎么搜命令和R帮助文档? ?

3.3K50

两个神奇R包介绍,外加实用小抄

看到?一是一,是魔鬼步伐。不要让sample1,2,3当列名,让他们多重复几遍,合并到一。 数据由九宫格变成了一,就可以用来跨包处理啦。 这就是实现了数据框变形?。...就是某些单元格有空情况。 三种处理方式:删除整行,根据上下文(瞎)蒙一个,同一填上同一个数。 ?...3.distinct 去除重复行(其实就是列出某一所有的不同) distinct(frame1,geneid) distinct(frame1,geneid,Sampleid)#列出这两个都重复行...这是根据相同列名进行合并,当在两个表格列名不一样时,需要在括号内加 by=c("col1"="col2") 其中col1和2分别是在两个表格需合并列名 semi_join,anti_join...这两种关联方式都是以表格1为基础,根据表格2与其共有的那一进行筛选。

2.5K40

生信星球Day4 学习R

/p/861224f4251aoptions() 设置R运行过程一些选项设置options()$repos 查看使用install.packages安装时默认镜像options()$BioC_mirror...查看使用bioconductor默认镜像R最重要两个配置文件: 一是.Renviron,能够设置R环境变量; 二是.Rprofile,如果启动时找到这个文件,那么就替我们先运行一遍(这个过程就是在启动...(dplyr)dplyr五个基础函数mutate() 新增列,(x,列名=相关数据)select() 筛选,(x,号或列名)filter() 筛选行,(x,列名==想要行)需要逻辑判断arrange...() 按某1或某几列对整个表格进行排序,默认从小到大,用desc()可从大到小summarise() 汇总,配合group_by()分组,可以mean()求平均值,sd()求标准差test <-...unique,即统计同类项连接两个不同方式inner_join() 內连,取交集,by="x"基于xleft_join() 左连,保留前一个表,以此多舍少补后一个表full_join()

18040

懒癌必备-dplyr和data.table让你数据分析事半功倍

接下来,我就为大家分享几个我在工作当中最常用来做数据分析用到包,dplyr和data.table,我保证你get到这两个包后,就再也不想用R里面自带基础包函数进行数据分析了!!...(贼笑中) dplyrR语言中最为重要包(之一)! 它可以让数据分析功能更加强大,代码更加简洁。你可以随心所欲操作它,使用它获取你想要数据,而且它语法非常简单,非常直白。...) 去重 distinct(df,V1,V2) 根据V1和V2两个条件来进行去重 在基础包里面也有一个去重函数unique() ※注意distinct()可以针对某些进行去重,而unique()只能对整个数据框进行去重...找到合适packages并学习使用它,绝对会让我们数据分析工作事半功倍! 我们有没有发现dylyr包函数使用一些规律? 有的!...(sum_v1=sum(v1),sd_v3=sd(v3))] 还可以直接给计算赋予名称哦!!功能强大得我都要笑开花了! 使用by 这还只是小试牛刀,你忘了我们还有个by!! DT[,.

2.4K70

R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

2.3 distinct 用来去除重复行,有时我们希望得到一个或若干个变量组合所有不同。...dplyr distinct() 函数可以对数据框指定若干变 量,然后筛选出所有不同,每组不同仅保留一行。...对于即将合并,需要使用引号;但对于想要合并多个列名,可以不用使用引号。sep 参数设定多合并后不同数据分隔使用分割符。...R 数据整理(六:根据分类新增列种种方法 1.0) 其他函数 slice dplyr函数 slice(.data, ...) 可以用来选择指定序号行子集,正序号表示保留,负序号表示排除。...nest 与unnest 对于数据框,我们可以使用split 将数据框按某拆分为多个数据框,并储存在列表

10.7K30

dplyr-cli:在Linux Terminal上直接执行dplyr

熟悉R朋友都会知道, dplyr包是对原始数据集进行清洗、整理以及变换有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。...dplyr-cli设计初衷就是让我们能够方便快速在不打开R情况下,在命令行运行 dplyr,处理csv文件。...尽管R可以在批处理模式下使用,但r二进制文件完全支持'shebang'样式脚本(即在脚本第一行中使用hash-mark-exclamation-path表达式)以及在标准Unix管道。...目前不足: 仅在 OSX和 YMMVbash下测试过 每个命令实质是在单独R运行 安装 虽然 dply-cli是可以直接在命令行中直接使用,但是其执行时候还是会依赖到R包。...,根据cyl来计算mpg平均值任务执行好,并且输出到屏幕

2K10

生信学习-Day6-学习R

我们分解一下代码各个部分来理解它含义: iris: 这是R语言中自带一个数据集,包含了150个样本,每个样本都是不同鸢尾花,有4个花测量特征(萼片长度、萼片宽度、花瓣长度、花瓣宽度)和一个种类标签...在dplyrfilter()函数中使用时,它可以用于筛选数据框匹配给定集合任一行。这行代码作用如下: filter(test, ...): 在test数据框筛选行。...group_by(Species):这一步将数据按照Species不同进行分组,即将数据集分成多个子集,每个子集包含相同Species数据。...y = test2:表示要与test2数据框进行semi-join操作,即保留test1与test2匹配行。 by = 'x':指定要根据哪个进行匹配。在这里,使用x来进行匹配。...y = test1:表示要与test1数据框进行anti-join操作,即从test2删除与test1匹配行。 by = 'x':指定要根据哪个进行匹配。在这里,使用x来进行匹配。

15610

R︱高效数据操作——data.table包(实战心得、dplyr对比、key灵活用法、数据合并)

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table) 同时,data.table与data.frame数据呈现方面,还有有所不同。...data.table,还有一个比较特立独行函数: 使用:=引用来添加或更新一(参考:R语言data.table速查手册) DT[, c("V1","V2") := list(round(exp(V1...在筛选变量数据,也可以与%in%集合运算联用(集合运算见博客:R语言︱集合运算)。...setkey(try,gender,buy_online) #设置key为两个变量,数据已经按照x进行了重新排序 ans2 <- DT[list("M","Y")] #更为简洁,并且迅速...3、第三种方式:key-merge setkey(DT,x) setkey(X,V1) merge(DT, X) 预先设置两个数据集key后,也可以用比较常见merge函数来进行数据合并。

7.2K43

R」数据操作(五):dplyr 介绍与数据过滤

该部分学习内容来自《R for Data Science》。 在对数据进行可视化之前我们往往需要进行数据转换以得到可视化所需要数据内容与格式。...,这里适配地显示了在一个屏幕前几行和所有的我们可以使用View(flights)在Rstudio查看数据集所有信息。...现在我们不必纠结于这些差异,在后续内容我们进行学习。 你可能已经注意到每个列名下面有三到四个字母缩写。...,只含TRUE和FALSE fctr代表因子,R用它来代表含固定可能分类变量 date代表日期 dplyr基础 这部分我们学习5个关键dplyr函数,它可以我们解决遇到大部分数据操作问题:...让我们实际来看看这些动词是怎么工作使用filter()过滤行 filter()允许我们根据观测来对数据集取子集。第一个参数是数据框名字,第二和随后参数是用于过滤数据框表达式。

2.4K11

R语言数据集合并、数据增减、不等长合并

数据选取与简单操作: which 返回一个向量中指定元素索引 which.max 返回最大元素索引 which.min 返回最小元素索引 sample 随机在向量抽取元素 subset 根据条件选取元素...merge 按照指定合并矩阵或者数据框 一、数据合并 1、merge()函数 最常用merge()函数,但是这个函数使用时候这两种情况需要注意: 1、merge(a,b),纯粹地把两个数据集合在一起...2、dplyrdplyr数据合并, 一般用left_join(x,y,by="name") 以x为主,y匹配到都放进来, 但,y没有的则不放过来。...相比来说,其他一些方法要好一些,有dplyr,sqldfunion 5、sqldf包 利用SQL语句来写,进行数据合并,适合数据库熟悉的人,可参考: R语言︱ 数据库SQL-R连接与SQL语句执行...四、不等长合并 1、plyr包 rbind.fill函数可以很好将数据进行合并,并且补齐没有匹配到缺失为NA。

12.9K12

GEO数据挖掘——快速将探针ID转化为Gene Symol

/GPL570-55999.txt',show_col_types = F,comment = '#') # 获取探针对应gene symbol,不同芯片平台Gene symbol所在可能略有不同...,大家先看看Gene symbol在那一,然后在选取探针ID和gene Symbol GSE_gpl = GSE_gpl[,c(1,11)] # 去除一个探针对应多个symbol,不同芯片平台,多个基因分隔符可能不一样...mathod = c('sum','mean','median','min','max')[2]){ # matrix是一个表达矩阵,第一为探针ID,其他列为每个探针ID对应样本表达 #...annotate是探针注释信息,包含两,第一为探针ID,第二为探针ID注释信息 # mathod多个探针ID对应同一个symbol处理方法,默认为均值 library(dplyr)...probe ID有重复,请重新输入去重之后探针注释文件') } }else { print('输入探针表达矩阵probe ID有重复,请重新输入去重之后探针表达矩阵')

3.1K20

R语言之数值型描述分析

epiDisplay 包函数 summ( )作用于数据框可以得到另一种格式汇总输出,它将变量按行排列,把最小和最大放在最后两以方便查看数据全距。...例如,计算数据框 cont.vars 各个变量样本标准差: sapply(cont.vars, sd) 基本包没有提供计算偏度和峰度函数,我们可以根据公式自己计算,也可以调用其他包里函数计算,...这些包提供了种类繁多计算统计量函数,这几个包在首次使用前需要先安装。下面以 psych 包为例进行说明。psych 包被广泛应用于计量心理学。...psych 包里函数 describe( )可以计算变量忽略缺失样本量、均值、标准差、中位数、截尾均值、绝对位差、最小、最大、全距、偏度、峰度和均值标准误等。...如果直接使用 list(birthwt$smoke),则上面分组名称将会是“Group.1”而不是“smoke”。

17820

R语言】dplyr对数据分组取各组前几行

所以在画图时候,也需要区分这三类。下面这张表就是GO富集分析得到结果,我们可以根据ONTOLOGY这一来分组,就可以得到BP,CC和MF三个组。...然后基于这个R包,我们用6种不同方法来实现。...top_n这个函数来输出每个组前五行,wt是排序依据,根据校正之后p来排序,n=-5是按从小到大排序。...filter(row_number() <= 5) r6 通过filter来控制行数<=5 最后我们来看看这六种方法得到结果究竟是不是一样dplyr这个包里面有函数叫all_equal专门用来判断两个数据框是不是一样...GO富集分析结果,默认是会根据校正之后p(p.adjust)来由小到大排序,所以基于这个结果,直接取每组前五行就是最显著5个条目。

1.6K21
领券