首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

R数据科学整洁之道:使用dplyr操作数据

今天为大家介绍一个 R 语言数据分析必学的包:dplyr。...1、第一个参数是一个数据框。 2、随后的参数使用变量名称(不带引号)描述了在数据框上进行的操作。 3、输出结果是一个新数据框。...数据准备 我们用ggplot2包的mpg数据为例,这个表记录了 234 辆汽车的品牌、型号、排量以及消耗每加仑汽油高速公路上行驶的里程数等数据。...select - 选择列 通过基于变量名的操作,select() 函数可以让你快速生成一个有用的变量子集。例如,以下命令选择表的两列:manufacturer 和 model。...group_by() 可以将分 析单位从整个数据集更改为单个分组。接下来,分组后的数据框上使用 dplyr 函数时, 它们会自动地应用到每个分组。

89230
您找到你想要的搜索结果了吗?
是的
没有找到

R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

参考:李东风老师的R 语言实战 1. tidyverse 系统简介 假设数据以 tibble 格式保存。...2.2 sample_n dplyr 包的 sample_n(tbl, size) 函数可以从数据集 tbl 随机无放回抽取 size 行,如: > d.class %>% sample_n(size... dplyr 包的 rename() 中用 “新名字 = 旧名字” 格式修改变量名,如: d2.class % dplyr::rename(h=height, w=weight...R 数据整理(六:根据分类新增列的种种方法 1.0) 其他函数 slice dplyr 包的函数 slice(.data, ...) 可以用来选择指定序号的行子集,正的序号表示保留,负的序号表示排除。...nest 与unnest 对于数据框,我们可以使用split 将数据框按某列拆分为多个数据框,并储存在列表

10.7K30

使用Rmerge()函数合并数据

使用Rmerge()函数合并数据 R可以使用merge()函数去合并数据框,其强大之处在于两个不同的数据框中标识共同的列或行。...如何使用merge()获取数据集中交叉部分 merge()最简单的形式为获取两个不同数据交叉部分。举例,获取cold.states和large.states完全匹配的数据。...但他们都几类型参数有关: x: 第一个数据框. y: 第二个数据框. by, by.x, by.y: 指定两个数据匹配列名称。缺省使用两个数据相同列名称。...,所以R基于两者state的name进行匹配。...Frost来自cold.states数据框,Area来自large.states. 上面代码执行了完整合并,填充未匹配列值为NA。 总结 本文详细介绍Rmerge()函数参数及合并数据类型。

4.3K10

使用 Pandas Python 绘制数据

在有关基于 Python 的绘图库的系列文章,我们将对使用 Pandas 这个非常流行的 Python 数据操作库进行绘图进行概念性的研究。...Pandas 是 Python 的标准工具,用于对进行数据可扩展的转换,它也已成为从 CSV 和 Excel 格式导入和导出数据的流行方法。 除此之外,它还包含一个非常好的绘图 API。...这非常方便,你已将数据存储 Pandas DataFrame ,那么为什么不使用相同的库进行绘制呢? 本系列,我们将在每个库制作相同的多条形柱状图,以便我们可以比较它们的工作方式。...我们使用数据是 1966 年至 2020 年的英国大选结果: image.png 自行绘制的数据 继续之前,请注意你可能需要调整 Python 环境来运行此代码,包括: 运行最新版本的 Python...本系列文章,我们已经看到了一些令人印象深刻的简单 API,但是 Pandas 一定能夺冠。

6.8K20

R使用支持向量机(SVM)进行数据挖掘

R,可以使用e1071软件包所提供的各种函数来完成基于支持向量机的数据分析与挖掘任务。请在使用相关函数之前,安装并正确引用e1071包。...正式建模之前,我们也可以通过一个图型来初步判定一下数据的分布情况,为此R使用如下代码来绘制(仅选择Petal.Length和Petal.Width这两个特征时)数据的划分情况。...使用第一种格式建立模型时,若使用数据的全部特征变量作为模型特征变量时,可以简要地使用“Species~.”的“.”代替全部的特征变量。例如下面的代码就利用了全部四种特征来对三种鸢尾花进行分类。...一个经验性的结论是,利用svm()函数建立支持向量机模型时,使用标准化后的数据建立的模型效果更好。 根据函数的第二种使用格式,针对上述数据建立模型时,首先应该将结果变量和特征变量分别提取出来。...确定好数据后还应根据数据分析所使用的核函数以及核函数所对应的参数值,通常默认使用高斯内积函数作为核函数。下面给出一段示例代码 ?

1.3K100

pivottablejs|Jupyter尽情使用数据透视表!

大家好,之前的很多介绍pandas与Excel的文章,我们说过「数据透视表」是Excel完胜pandas的一项功能。...Excel下只需要选中数据—>点击插入—>数据透视表即可生成,并且支持字段的拖取实现不同的透视表,非常方便,比如某招聘数据制作地址、学历、薪资的透视表 而在Pandas制作数据透视表可以使用pivot_table...pivottablejs 现在,我们可以使用pivottablejs,可以让你在Jupyter Notebook,像操作Excel一样尽情的使用数据透视表!...接下来,只需两行代码,即可轻松将数据透视表和强大的pandas结合起来 from pivottablejs import pivot_ui pivot_ui(df) 就像上面GIF展示的一样,你可以...Notebook任意的拖动、筛选来生成不同的透视表,就像在Excel中一样,并且支持多种图表的即时展示 还等什么,用它!

3.5K30

Google Earth Engine——使用 Rdplyr 和 ggplot 可视化科罗拉多州丹佛市的每小时交通犯罪数据

丹佛市在其开放数据目录公开保存过去五年的犯罪数据本教程,我们将使用 R 访问和可视化这些数据,这些数据本质上是具有犯罪类型、社区等特征的时空参考点。 首先,我们将加载一些稍后会用到的包。...library(dplyr) library(ggplot2) library(lubridate) 然后,我们需要下载包含原始数据的逗号分隔值文件。...下面的代码使用dplyr包对数据进行子集化以仅包括交通事故犯罪 ( filter(...))...,使用mutate()函数为这些变量创建新列。...使用 ggplot,我们将为一周的每一天创建一个带有颜色的密度图。此工作流用于dplyr处理我们的数据,然后将结果通过管道传输到ggplot2,以便我们全局环境仅创建一个对象p,即我们的绘图。

8310

生信代码:数据处理( tidyverse包)

大家在学习R语言的时候,大多参考《R语言实战》这本书,但这本书年代过于久远(中文第二版是2016年),主要着力点也是R base上,R语言可视化的ggplot2包也只是简要介绍,而对于tidyverse...Rstudio中加载tidyverse包,可以看到该包下有8个子包,著名的ggplot2包即是其中的一个子集,我们先着重讲一下数据处理有关的包——dplyr包。...mydata %>% mutate(sumx=x1+x2, meanx=sumx/4)##dplyr允许使用管道%>%操作,且meanx可以引用sumx 2...select() select()使我们能够快速聚焦在有用的数据子集上: df <- tibble( name = c("Alice", "Alice", "Bob", "Bob", "Carol...,如果后续要使用到,需要保存下来 5 arrange() R base包涉及到排序的包括 sort(),rank(),order(),而在dplyr与排序相关的是arrange()包,默认是从高到低进行排序

2K10

R语言第二章数据处理③删除重复数据目录总结

R语言第二章数据处理③删除重复数据 ================================================ 这篇主要介绍如何在R识别和删除重复数据。...主要用的到R base和dplyr函数: duplicated():用于识别重复的元素和 unique():用于提取唯一元素, distinct()[dplyr package]删除数据的重复行...0.2 setosa ## 6 5.4 3.9 1.7 0.4 setosa ## # ... with 17 more rows 使用...dplyr包删除数据的重复行 函数distinct()[dplyr package]可用于仅保留数据的唯一行。...总结 根据一个或多个列值删除重复行:my_data%>%dplyr :: distinct(Sepal.Length) R base函数从向量和数据中提取唯一元素:unique(my_data) R基函数确定重复元素

9.6K21

rdplyr 里的 join 与 base 里的 merge 存在差异

今天使用连接操作时发现:虽然都是合并操作函数,dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异,不同的数据结构,结果也会存在偏差。...相同的数据,不同的操作函数存在差异 进行连接操作时,我们会发现 dplyr 的结果会报错!...r4 r1 r3 r2 #> 1 S1 S2 S2 S1 S1 #> 2 S2 S1 S1 S2 S2 看起来似乎有点不可理喻,但实际上上面我构造的数据集是有点特别的:前 2 个子集和第 3 个子集是没有可以连接的列的...本质上是 data.table 体格的泛型函数不支持类似基础包的操作。 如何编写代码支持对上述数据集的连接操作?...2 S1 S2 S2 S1 S2 更新 在后面的一些使用过程中发现基础包的 merge() 函数进行连接操作时会输出有问题的结果,所以建议使用的小伙伴仔细检查结果。

1.5K30

nuScenes数据OpenPCDet使用及其获取

下载数据 从官方网站上下载数据NuScenes 3D object detection dataset,没注册的需要注册后下载。...注意: 如果觉得数据下载或者创建data infos有难度的,可以参考本文下方 5. 3. 数据组织结构 下载好数据集后按照文件结构解压放置。...其OpenPCDet数据结构及其位置如下,根据自己使用数据是v1.0-trainval,还是v1.0-mini来修改。...创建data infos 根据数据选择 python -m pcdet.datasets.nuscenes.nuscenes_dataset --func create_nuscenes_infos \...数据获取新途径 如果觉得数据下载或者创建data infos有难度的,可以考虑使用本人处理好的数据 v1.0-mini v1.0-trainval 数据待更新… 其主要存放的结构为 │── v1.0

5.3K10

结构方程模型 SEM 多元回归和模型诊断分析学生测试成绩数据与可视化

library(dplyr) #用于清理数据 library(Hmisc) #相关系数的显着性 然后,我们将使用 Fortran 读入数据文件并稍微清理数据文件。...# 确保将您的工作目录设置为文件所在的位置 # 位于,例如setwd('D:/下载) 您可以 R Studio 通过转到 # 会话菜单 - '设置工作目录' - 到源文件 # 选择数据的一个子集进行分析...= 表示不等于 #让我们看看数据文件 sub #注意 R 将原始数据的空白单元格视为缺失,并将这些情况标记为 NA。...NA 是默认值 # 使用 dplyr 对特定测试进行子集化 select(sub, c(T1, T2, T4)) # 使用 psych 包获取描述 请注意,R 将原始数据的空白单元格视为缺失,...其中一些代码可帮助您将残差、预测值和其他案例诊断保存到数据以供以后检查。请注意,lm 命令默认为按列表删除。

3K20

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

## #dplyr基本函数 select——子集选取(筛选变量,列) select(Hdma_dat,pclass,survived) ##选择pclass变量 ?...base包里和split功能接近的函数有cut(对属性数据分划),strsplit(对字符串分划)以及subset(对向量,矩阵或数据框按给定条件取子集)等。...(iris$setosa)] #按照照setosa的大小,重排Sepal.Length数据列 四、dplyr与data.table data.table可是比dplyr以及python的...进一步地,data.table某些情况下执行效率更高。(参考来源:R高效数据处理包dplyr和data.table,你选哪个?) ?...使用data.table时候,需要预先布置一下环境: data<-data.table(data) 如果不布置环境,很多内容用不了。

20.5K32

R语言数据处理:飞机航行距离与到达延误时间有什么关系??

而本文介绍的dplyr包简直就是Hadley Wickham (ggplot2包的作者,被称作“一个改变R的人”)大神为我们提供的“数据再加工”神器啊。...带着这个问题,我们将首先使用dplyr包对给出的航班数据进行处理。...包,该软件包的飞机航班数据将用于本文中dplyr包相关函数的演示。...处理数据之前,让我们再来回顾一下数据处理的一般步骤: 选择子集、列名重命名、删除缺失数据、处理日期、数据类型转换、数据排序 接下来,就可以进行数据处理了: 2.数据处理 2.1 选择子集 所谓选择子集...3.2 应用函数及组合结果 我们使用dplyr的summarize()函数,进行数据统计指标的获取及组合。计算出不同目的地的平行航行距离以及平均延误时间。

3K40

使用链接服务器异构数据查询数据

要链接到一种数据库需要使用相应的接口。微软为很多数据库提供了驱动接口,所以可以直接使用,但是对于没有提供驱动的数据库比如Sybase,则需要在服务器上安装对应数据库厂商提供的驱动。...使用SSMS或者使用T-SQL语句配置成功链接服务器后便可通过: [服务器名].[数据库名].[架构名].[对象名] 的形式来访问数据库。...但是当Oracle的这个表数据量较大,比如有几十万行或者几百万行时,这个查询将会耗费很长时间。SQL Server运行该脚本可能要等上10秒、20秒或者1分钟、5分钟才可能查询出结果。...但是如果将脚本Oracle服务器上直接运行,则1秒钟不到就查询出结果了。造成这种情况的是SQL Server查询链接服务器的机制。 不同的数据库对应的SQL语言是有所不同的。...query'链接服务器执行的查询字符串。该字符串的最大长度为8KB。

4.2K10

数据科学学习手札58)R处理有缺失值数据的高级方法

一、简介   实际工作,遇到数据带有缺失值是非常常见的现象,简单粗暴的做法如直接删除包含缺失值的记录、删除缺失值比例过大的变量、用0填充缺失值等,但这些做法会很大程度上影响原始数据的分布或者浪费来之不易的数据信息...,因此怎样妥当地处理缺失值是一个持续活跃的领域,贡献出众多巧妙的方法,不浪费信息和不破坏原始数据分布上试图寻得一个平衡点,R中用于处理缺失值的包有很多,本文将对最为广泛被使用的mice和VIM包中常用的功能进行介绍...的matshow,VIM包的matrixplot将数据框或矩阵数据的缺失及数值分布以色彩的形式展现出来,下面是利用matrixplot对R自带的airquality数据集进行可视化的效果: rm...如上图所示,通过marginplot传入二维数据框,这里选择airquality包含缺失值的前两列变量,其中左侧对应变量Solar.R的红色箱线图代表与Ozone缺失值对应的Solar.R未缺失数据的分布情况...采样从原始数据出发为每个缺失值生成初始值以供之后迭代使用,而m则控制具体要生成的完整初始数据框个数,整个插补过程最后需要利用这m个矩阵融合出最终的插补结果,若m=1,则唯一的矩阵就是插补的结果; method

3K40
领券