展开

关键词

tidyverse|数据分析常规操作-分组汇总(sumamrise+group_by)

使用tidyverse进行简单的数据处理:盘盘Tidyverse| 列之select,玩转列操作 盘盘Tidyverse| 要你要要我-filter 行 Tidyverse|数据列的分分合合 ,分多,多合 Tidyverse| XX_join :多个数据表(文)之间的各种连接本次介绍变量汇总以及分组汇总。 library(dplyr)iris %>% summarise(mean(Petal.Length), #无命名 sd_pet_len = sd(Petal.Length,na.rm = TRUE), Petal.Length Petal.Width#1 5.843333 3.057333 3.758 1.1993331.3,summarise_at完成指定变量的汇总summarise_at配合vars,可以更灵活的符合的列 is.na(x)) :返回非缺失值的梳理;n_distinct(x):返回 值的数量。

67860

数据处理|R-dplyr

dplyr包实现数据的清洗处理,包括数据整合、关联、排序、、汇总、分组等。 2)数据记录(行)filter函数:按指定符合中逻辑判断要求的数据记录。 filter(iris, Sepal.Length == 7)Q:花萼长大于7,花萼宽带大于等于3的数据? %in% c(setosa,virginica))3)变量(列)select函数:可以通过指定列名择指定的变量进行分析,得到的为择的列。 )) #会保留择的变量4)数据排序(重要,大小,去除异常值)arrange函数按给定的列名进行排序,默认为升序排列,也可以对列名加desc()进行降序排序。

15510
  • 广告
    关闭

    云产品限时秒杀

    云服务器1核2G首年38元,还有多款热门云产品满足您的上云需求

  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    R语言数据处理:飞机航行距离与到达延误时间什么关系??

    数据分析半以上的时间会花在对原始数据的整理及变换上,包括取特定的分析变量、汇总并满足的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。 这点,我想大部分使用EXCEL的童鞋都深体会,写论文时,这么多的数据进行处理,手动汇总、、变换,工作量实在是太大。 本文试图通过个案例,对神奇的dplyr包的些常用功能做简要介绍。在此抛砖引玉,欢迎广大盆友拍砖。先放上实践课的个问题:航行距离与到达延误时间什么关系?? 包,该软包中的飞机航班数据将用于本文中dplyr包相关函数的演示。 如图可知,nycflights13是个data.frame类型的对象,包含336776数据记录、19个变量。

    72940

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    | 17.53566||M | 12.57601||M | 12.40139||M | 11.68051||F | 12.09003| 2. dplyrtidyr 数据管理2.1 filter使用逻辑对行 ,后续的参数是,这些是需要同时满足的,另外,中取 缺失值的观测自动放弃,这点与直接在数据框的行下标中用逻辑下标所不同,逻辑下标中缺失值会在结果中 产生缺失值。 dplyr 包的 distinct() 函数可以对数据框指定若干变 量,然后出所不同值,每组不同值仅保留行。 2.5 select对行或列,比较用的是其些专属函数:select(test, starts_with(Petal)) #中..开头的列select(test, ends_with(Width 比如,需要对 cancer 数据集中 v0 和 v1 两个变量同时计算平均值和标准差:显然,如果许多变量要计算不止个统计量,就需要人为将每个变量的每个统计量单独命名。

    7130

    R数据科学|第九章内容介绍

    本章中的很多概念都和SQL中的相似,是在dplyr中的表达形式略微不同。般来说,dplyr 要比 SQL 更容易使用。 处理关系数据三类操作:合并连接:向数据框中加入新变量,新变量的值是另个数据框中的匹配观测。连接:根据是否匹配另个数据框中的观测,数据框中的观测。集合操作:将观测作为集合元素来处理。 键是能标识观测的变量(或变量集合)。键的类型两种。主键:标识其所在数据表中的观测。例如,planes$tailnum 是个主键,因为其可以标识 planes 表中的每架飞机。 内连接( inner_join() )要两个观测的键是相等的,内连接就可以匹配他们,没匹配的行不会包含在结果中。?外连接( inner_join() )外连接保留至少存在于个表中的观测。 连接连接匹配观测的方式与合并连接相同,但前者影响的是观测,而不是变量。连接两种类型:semi_join(x,y):保留x表中与y表中的观测相匹配的所观测。 ?

    21530

    转载︱案例 基于贪心算法的特征

    本文转载于R语言中文社区,详情链接相关帖子转载︱案例 基于贪心算法的特征择 用GA算法设计22个点之间最短旅程-R语言实现 ———————————————————————————————————— 贪心算法不是对所问题都能得到整体最优解,关键是贪心策略的择,择的贪心 策略必须具备无后效性,即某个状态以前的过程不会影响以后的状态,与当前状态关。 算法设计: 初始化问题的目标值 while(实现优化目标的约束){ 利用策略,求出解空间的个可行解 } 将所可行解组合成目标解空间。 options(warn = -1)require(magrittr)require(dplyr)require(glmnet)# Greedy AlgorithmGreedyAlgorithm = function (dataSet) { # 基于逻辑回归,以AUC作为评价指标,采用贪心算法进行特征 # # Args: # dataSet: A dataframe that contains a feature

    38210

    R&Python Data Science 系列:数据处理(1)

    在数据转换和可视化模块中,R和Python很多相近的语法代码。1 数据转换 数据转换广义上也是数据处理,是根据业务需求,、衍生新的变量以及计算些统计量。 这部分介绍下R和Python数据处理用到的、衍生以及计算函数。主要介绍如何使用R语言和Python中的两个程序包进行数据处理,R语言中的dplyr和Python中的dfply第三方包。? 注意:python中按比例抽样和抽样指定的几列,是通过参数限制的;R语言按比例抽样使用sample_frac()函数,抽样几列使用sample_n()函数4.4 distinct函数 值,这里需要注意的是 ,查看某列几个值,python中需要先select()函数择这列,然后再使用distinct,或者先distinct,再使用select;若直接使用distinct,则所列全部输出,某个类别输出的是该类别的行 注意在python和R中distinct()函数细微的差别。4.5 filter_by函数 按照某种进行,python中也可以使用mask()函数,两者等价。

    31810

    R语言入门()之数据处理

    air.hole =7)#a2数据中所符合Sepal.Length >=7的行? Sepal.Length > 5.5)#a1数据中所符合Species == setosa”和Sepal.Length > 5.5的行? d= dplyr::filter(a1, (Species == setosa | Species == versicolor) & Petal.Length>1.5)#a1数据中所符合Species dplyr::select(a2.2, -contains(Petal))#a2.2数据中标题不包括Sepal的列? 比如‘sex’变量Fale,Female两种,可以当做字符串,也可作为属性变量。header = T,true则excel第行用于列名称,具体数据从第二行开始;false则第行即为具体数据。

    60240

    生信代码:数据处理( tidyverse包)

    大家在学习R语言的时候,大多参考《R语言实战》这本书,但这本书年代过于久远(中文第二版是2016年),主要着力点也是在R base上,R语言可视化的ggplot2包也是简要介绍,而对于tidyverse tidyverse 包是 Hadley Wickham 及团队的集大成之作,是专为数据科学而开发的系列包的合集, 基于整洁数据,提供了致的底层设计、语法、数据结构,包括数据导入,数据规整,数据处理, 在Rstudio中加载tidyverse包,可以看到该包下8个子包,著名的ggplot2包即是其中的个子集,我们先着重讲下数据处理关的包——dplyr包。 dplyr包下主要是以下几个操作: select()——择列 filterslice()——行 arrange()——对行进行排序mutate()——修改列创建列summarize()——汇总数据 出具前缀或者后缀的列df %>% select(start_with(n))3 filter()filter()是对数据行方向的择和出符合我们的某些行:df %>% filter(

    32010

    Python从零开始第三章数据处理与分析①python中的dplyr(1)

    前言 我经常使用R的dplyr包进行探索性数据分析和数据处理。 dplyr除了提供组可用于解决最常见数据操作问题的致函数外,dplyr还允许用户使用管道函数编写优雅的可链接的数据操作代码。 现在,Python是我的主要语言,pandas是我用于数据分析的助手,但我经常希望个Python包允许直接在pandas DataFrame上进行dplyr风格的数据操作。 于是我找到了个名为dfply的软包,由Kiefer Katovich开发。 与dplyr样,dfply也允许使用管道运算符链接多个操作。 入门 我们需要做的第事是使用pip安装软包。 pip install dfply 根据该目的Github介绍,dfply仅适用于Python 3,因此请确保安装了正确版本的Python。 mask()为的所行。

    33940

    dplyr-cli:在Linux Terminal上直接执行dplyr

    熟悉R的朋友都会知道, dplyr包是对原始的数据集进行清洗、整理以及变换的力武器之。但是其使用会局限于你需要打开RR studio或者通过R脚本来执行 dplyrdplyr包的功能主要包括:变量函数 select函数 filter排序函数 arrange变形(计算)函数 mutate汇总函数 summarize分组函数 group_by多步操作连接符 % 接着我们就通过系列的实战例子来了解下如何使用这个好用的工具,这里会使用到 mtcars.csv这个文,当你从Github下载 dplyr-cli时,会包含其作为个测试文:例子:简单的基本操作输出 mpg值为21的行:##这里的 -c是用于输出格式为CSV的stdoutcat mtcars.csv | .dplyr filter -c mpg == 21###输出mpg,cyl,disp,hp 实例四:连接两个文作者提到该功能还不是很完善,主要的缺陷:用于连接命令后的第个参数必须是现,并且格式为(CSV或RDS)不能通过 by连接指定参数,因此两个文必须个共同的列才能链接这里我们会链接

    23610

    34. R 数据整理(六:根据分类新增列的种种方法 1.0)

    0.2 setosa2 4.9 3.0 1.4 0.2 setosa3 7.0 3.2 4.7 1.4 versicolor new1 17.852 14.703 22.40 select按列。 按列号select(test,1)select(test,c(1,5)) 按列名如果想要用向量来存放希望的列名,需要使用函数 one_of 来存放该向量。 参见:https:www.yuque.commugpengrrnhhess#AoSx0但它们缺陷也很明显, rbind (bind_rows)或 cbind (bind_cols)能非常生硬将相同列或相同行的表格 “压”在起;而 merge 也能按照共部分相连接,两个表格中均不存在的行的内容会被删去。 anti_join(x = test2, y = test1, by = name) 易错点处理“宽长”型数据框时(gather处理生成的),该数据库需要存在某个“索引列”,可以保证其对应的某行内容的信息

    5720

    R语言公交铁路线网络图实现数据挖掘实战

    原文链接对于庞大的公交铁路线信息的数据挖掘,般软遇到的问题主要两点:1.对于文本信息的挖掘,特别是中文词汇的挖掘,缺乏成熟的工具或者软包,2.对于大数据量,般软的读取和处理会遇到问题。 即使个月的部分区域路线信息也会达到几百m以上,因此,对于这类数据,无论从算法运行还是数据读取来说普通的SQL语言或者matlab软处理起来都乏善可陈。 对于这类数据,我们般用r软可以轻松实现读取,数据挖掘以及可视化的过程。 (dplyr) library(dplyr)#读取dplyr包用以排序 ###对数据读取 data=read.table(E:201501卡通进出站.txt,stringsAsFactors=F) # which(data2==bus)#出车站为243的数据行号 data3=data2#获取交易车站为243的数据 ###data3=data2#如果不车站,直接按交易车站递增排序 data4=arrange

    17061

    R语言公交铁路线网络图实现数据挖掘实战

    对于庞大的公交铁路线信息的数据挖掘,般软遇到的问题主要两点:1.对于文本信息的挖掘,特别是中文词汇的挖掘,缺乏成熟的工具或者软包,2.对于大数据量,般软的读取和处理会遇到问题。 即使个月的部分区域路线信息也会达到几百m以上,因此,对于这类数据,无论从算法运行还是数据读取来说普通的SQL语言或者matlab软处理起来都乏善可陈。 对于这类数据,我们般用r软可以轻松实现读取,数据挖掘以及可视化的过程。 首先我们进行数据的读取和预处理 install.packages(dplyr) library(dplyr)#读取dplyr包用以排序 ###对数据读取 data=read.table(E:201501 ###对数据进行预处理 for( ii in 20150101:20150131){#每天的数据 data1=data==ii),]#出日期为20150101这天的数据 data2=data1#出交易日期

    16020

    tidyverse:R语言中相当于python中pandas+matplotlib的存在

    tibble,类型能回收长度为1的输入tibble,会懒加载参数,并按顺序运行tibble,是tbl_df类型 tibble是data.frame的进化版,如下优点:生成的数据框数据每列可以保持原来的数据格式 ; 查看数据时,不再会行显示不下(会自动隐藏部分,自带head);两种方式来创建tibble格式的数据:1. :数据整理dplyr包的下述五个函数用法4.1 : filter4.2 排列: arrange4.3 择: select4.4 变形: mutate4.5 汇总: summarise4.6 分组: group_by# install.packages(dplyr)library(dplyr) 4.1 : filter() #按给定的逻辑判断出符合要求的子数据集filter(mtcars_df key#value:将原数据框中的所值赋给个新变量value#…:可以指定哪些列聚到同列中#na.rm:是否删除缺失值 widedata

    27110

    懒癌必备-dplyr和data.table让你的数据分析事半功倍

    在编程语言里面,说语法简单,意味着编程语言与我们正常人的逻辑思维是致的。它相对于R自带的方法会更高效,我们不需要花很多时间去等待机器反应。 dplyr很庆幸,都提供了关于常用方法的些函数。 在GitHub上面,之前人做了个统计,以下几个函数最为常用:filter( ) 过滤filter(df,cond1,cond2,…) 用逗号,隔开表示是and的关系 filter(df,cond1 |cond2|…) 用竖线|隔开表示是or的关系 slice(df,80:100) 取索引80到100的数据arrange( ) 对数据框进行排序arrange(df,V1,desc(V2),V3 V3列数据 select(df,V1:V3) 择V1到V3列的所数据 t

    35170

    富集分析DotPlot,可以服

    能显示部分数据 (这点Y叔也提到,用了simplify会好些,但也还会不少通路),所富集目导出作为文章附表,以显示信息的全面和真实。 其次,即便可以画出所富集数据 (用副大图),也会先对结果做下些特别基础的、极父层的生物富集通路也会择不展示,优先展示样品属性更相关的。 所以需要导出数据,做下,然后步绘图。 脚本如实反映出的数据。 步出图也可以定制说到互动,步出图不可以,而且还可以记录互动 (给每个输出文加个的字符串做为文名的部分就可以了,不过这个没用到,之前就没写这个参数)。

    2.5K70

    csvtk:高效命令行版极简dplyr

    说到爪哥,如果你看到这篇文章之前不知道他我不怪你,但是今天以后希望他可以每天都和你在起。爪哥用两个工具就让自己在生物信息领域席之。 +freq 所字段评率统计inter 多个文取交集grep 类似于 lunix 的 grep,支持正则和反等操作 +filter 按照数学表达式,支持多列判断,精简版filter2 按照数学表达式 合并其它字段 +文本编辑类如果你熟悉 R 中的 dplyr,这类型的子命令中不少都会让你感觉熟悉。 howtouniq.txt | csvtk uniq -H -t -f 1,2 > howtouniq.txt.awk-csvtk #real 0m2.674s#user 0m5.660s#sys 0m0.482s复杂数据 csvtk 中的 filter2 支持使用复杂数据,类似于 awk。

    73260

    左手用R右手Python系列5——数据切片与索引

    ----------------R语言:------------------library(ggplot2)我使用ggplot2内置的mpg数据集来进行案例演示,数据框可以通过方括号传入行列下标的方式各种符合的取值范围 通常情况下这种取值是没任何意义的,行索引最常用的场景是用于索引,来基于分类字段数据子集。基于数据框本身的索引:mpg #或mpg #且? 以上索引是在没借助任何外部函数的基础上,通过数据框自身的规则完成的,很不优雅,因为写了很多重复的名称。种更优雅的方式是使用subset函数进行行列。 subset函数主要接受三个参数,数据框名称,行,select列。或与且得逻辑表达与上述案例致。 还种更加高级优雅得方式是使用dplyr包中的select和filter函数进行行列索引与切片。

    1.1K50

    TidyFriday 每天 5 分钟,轻轻松松上手 R 语言(四)

    基于范围的过滤如果我们要范围的值,可以用两个逻辑。 但在某些情况下,需要根据部分内容进行,我们需要个函数来计算字符串上的正则表达式并返回布尔值。要语句为 TRUE,就会过滤该行。 mouse 12.5## 3 Northern grasshopper mouse 14.5## 4 Deer mouse 11.5## 5 African striped mouse 8.70 基于多的过滤时我们需要对多个进行 dplyr 包还几个功能强大的包,来支持我们跨列「filter_all」现在个需求,要列值包含字母组合 Ca 我们就把这个观测值出来,我们可以用any_vars() 结合str_detect (),它将值都符合某的行,比如我们想变量类型为数值型且都大于1的列msleep %>% select(name, sleep_total:bodywt, -awake) %>% filter_all

    13830

    相关产品

    • GPU 云服务器

      GPU 云服务器

      腾讯GPU 云服务器是提供 GPU 算力的弹性计算服务,具有超强的并行计算能力,作为 IaaS 层的尖兵利器,服务于深度学习训练、科学计算、图形图像处理、视频编解码等场景……

    相关资讯

    热门标签

    扫码关注云+社区

    领取腾讯云代金券