首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

《高效R语言编程》6--高效数据木匠

这是本书最重要的一章,将涉及以下内容: 使用tidyr整理数据 使用dplyr处理数据 使用数据使用data.table处理数据 软件配置 library("tibble") library("tidyr...") library("stringr") library("readr") library("dplyr") library("data.table") 高效的tibble包 tibble定义了新的数据框...tibble会打印每个变量的类,data.frame不会 stringAsFactors默认不转换 输出,只输出前10行 使用tidyr与正则表达式整理数据 整理数据包括数据清理和数据重构,前者是重定格式与标记脏数据...数据库与dplyr 必须使用src_*()函数创建一个数据源。# 使用data.table()处理数据dplyr的替代,两个哪个好存在争议,最好学一个一直坚持下去。...如果两个都是新手,推荐dplyr。为了提升性能,可以设置键,类似数据库的主键,方便二进制算法提取目标子集行。 ?

1.9K20
您找到你想要的搜索结果了吗?
是的
没有找到

数据流编程教程:R语言与DataFrame

数据清洗 tidyr/jsonlite 1. tidyr tidyr是一个数据清洗的新包,正在取代reshape2、spreadsheets等包。...tidyr主要提供了一个类似Excel中数据透视表(pivot table)的功能,提供gatherspread函数将数据在长格式宽格式之间相互转化,应用在比如稀疏矩阵稠密矩阵之间的转化。...ggvis最明显的区别就是在作图直接支持%>%的管道操作,比如: ggplot2与ggvis的关系类似于plyr与dplyr的关系,都是一种演化过程。 六....data.table还参考了NoSQL中流行的Key-Value形式,引入了setkey()函数,为数据设置关键字索引。...对比操作 对比data.table dplyr 的操作: 3. apply函数族 4. join 操作 5. 拼接操作 更多操作详情可查看data.table速查表。 八.

3.8K120

从一件数据清洗的小事说起

村长,数据科学、指弹吉他及录音工程爱好者,浙大金融学博士在读,在data.tableMongoDB的使用上有较多经验。...其实这一期这么扯淡的讲这么多事情,只是为了说明一点,data.table真的有很好的性能,尤其在处理海量数据方面(在分组特别多的时候,相比dplyrpandas有2x~10x的提升,来自官方文档)。...那么data.table的框架优秀在哪儿呢? data.table之所以比dplyr要快,在于两者设计的哲学不同。...dplyr的哲学Linux类似:每个组件就做好一件事,当把所有组件拼在一起之后就是一个全功能的包了。这个理论利弊共存。...其次,由于dplyr把原本是一个整体的数据处理需求拆分成了很多“步”,导致代码会比较冗长。

66910

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言,数据处理是其一大特色功能,事实上每一个处理任务在R语言中都有着不止一套解决方案(这通常也是初学者在入门R语言,感觉内容太多无从下手的原因),当然这些不同方案确实存在着性能效率的绝大差异...可怜的机器呀,内存磁盘要撑爆了~ 使用data.table内的I/O函数进行导入: rm(list=ls()) gc() library("data.table") system.time(...使用fread函数导入之后便会自动转化为data.table对象,这是data.table所特有的高性能数据对象,同时继承了data.frame传统数据框类,也意味着他能囊括很多数据框的方法函数调用。...当整列聚合的单值同时输出,可以支持自动补齐操作。 当聚合函数与data.table中的分组参数一起使用时,data.table的真正威力才逐渐显露。 mydata[,....当然你要是特别不习惯这种用法,还是习惯使用merge的话,data.table仍然是支持的,因为他本来就继承了数据框,支持所有针对数据框的函数调用。

3.6K80

「Workshop」第二期:程序控制与数据操作流

涉及编程的数据代码都会放到 https://github.com/XSLiuLab/Workshop 推荐图书 《R for Data Science》[1] 《R 语言编程指南》 《R 实战》 其他推荐见...expand-reading.html R 编程基础 https://shixiangwang.gitee.io/geek-r-tutorial/base.html 内容: 基础语法 控制与循环结构 函数与包 数据读取保存...字符处理 substr stringr包与正则表达式略微复杂,可以单独讲一次 转换 tidyr Tidy 数据格式 ? ?...拓展表格 expand complete 分割连接 separate separate_rows unite 数据导出 write_* data.table 与 base 数据导入 fread 数据导出...fwrite data.table 语法 dt[i, j, by] 数据过滤与合并等操作与 R 基础语法一致,也可以使用 tidyverse 处理 整数索引 逻辑索引 命名索引 进一步的学习参考小抄、

1.5K30

R 语言的安装(详细教程)「建议收藏」

镜像(Mirroring)是一种文件存储形式,是冗余的一种类型,一个磁盘上的数据在另一个磁盘上存在一个完全相同的副本即为镜像。...Windows (建议在 windows 下使用 R) 点进来可以看到这个页面,再点击 base Rtools 这两处链接,分别会跳进 R 的 基本 工具 下载页面 2. download...安装相关的三个可执行文件 百度网盘下载链接 链接:网盘链接 提取码:ikya 之后的安装基本是都是 傻瓜式 安装 ---- 四、R 安装 双击之前下载好的可执行文件 R-X.X.X-xxx.exe 选择安装使用的语言...require("tidyr")) install.packages("tidyr") if(!require("dplyr")) install.packages("dplyr") if(!...require("data.table")) install.packages("data.table") if(!

3.1K20

生信入门马拉松之R语言基础-函数R包(day 4)

使用国内镜像-推荐清华或中科大镜像-设置镜像即可-网址在day4的R脚本tools - global option -packages -primary CRAN repository中设置镜像,选择中科大或清华代码设置...require(tidyr))install.packages("tidyr")if(!require(dplyr))install.packages("dplyr")if(!...,用到ggplot2别人代买自己数据套,报错不会改大多数包规律一致,不需要单独学习,用哪个函数学习哪个函数少部分包有自学语法,比如ggplot2,dplyr等R包如何使用查看帮助文档搜索引擎搜R包介绍页面...ls("package:包名")该命令可以列出R包里的函数或数据R语言里的符号()前是函数 []前是向量数据框或矩阵取子集[[]]列表取子集 $数据框取子集,列表取子集 <-赋值 = 赋值,或连接形式参数实际参数...否定 {}多行代码举例认清函数和数据ggstatsplot是一个功能强大的作图R包,这里使用ggbetweenstatsggbarstat函数举例做图。

19010

tidyverse

背景 Tidyverse 是 Rstudio 公司推出的专门使用 R 进行数据分析的一整套工具集合,里面包括了readr,tidyrdplyr,purrr,tibble,stringr...tidyrdplyr 包是用 R 语言中用来处理各种数据整合分析的包,可以说是 R 数据整合的“瑞士军刀”,tidyr 包负责将数据重新整合,dplyr 包可以完成数据的排序,筛选,分类计算等都等操作...官网:https://www.tidyverse.org/ 一、tidyr 数据整理 tidyr 包用于将数据重新整合,替代之前的 reshape reshape2 包,用于数据重塑与聚合...(符合下层函数参数的格式要求),方便用户查找阅读。...二、tidyr 使用案例 library(tidyverse) library(tidyr) tdata <- mtcars[1:10,1:3] tdata gather(tdata) tdata <-

1.6K10

R语言之数据框的合并

1.纵向合并:rbind( ) 要纵向合并两个数据框,可以使用 rbind( )函数。被合并的两个数据框必须拥有相同的变量,这种合并通常用于向数据框中添加观测。...横向合并:cbind ( ) 要横向合并两个数据框,可以使用 cbind( ) 函数。用于合并的两个数据框必须拥有相同的行数,而且要以相同的顺序排列。这种合并通常用于向数据框中添加变量。...direction:这是一个字符串,表示重塑的方向。在这种情况下,"wide"表示要将数据从长格式重塑为宽格式。...tidyr 包以一种比较简洁统一的格式实现数据长宽格式的转换,其中,函数 pivot_wider( ) 用于把长格式数据转换为宽格式,而函数 pivot_longer( ) 用于把宽格式数据转换为长格式...tidyr 包中的 gather() spread() 同样可以用于长型、宽型数据类型转换,详见 Cookbook for R。

55850

「Workshop」第一期:我理解的(生信)数据分析核心基础

我在简书公众号上已经分享了很多之前学习的数据分析笔记和文章,覆盖了各方面的内容,数据分析方面以后不会再个人分享特别基础的东西了。接下来我会让师弟师妹们定期分享自己的学习过程。...另外,为了更好地学习交流,我尝试在组内组织 Workshop,前几期会由我根据一些主题讲述数据分析操作、软件包开发等。后续也将通过轮流的方式组织大家一起学习编程、数据分析流程、生信流程等等。...统计基础:描述性统计量、概率分布、假设检验 统计分析(基于统计的计算):均值、方差;t检验(差异分析)、相关分析、富集分析、多重校正等 专业背景:肿瘤学、免疫学、临床治疗等 数据处理流程 预处理 数据转换操作...] 等核心操作 readr dplyr 管道 tidyr purrr ggplot2 tidyverse 家族(https://r4ds.had.co.nz/) data.table Linux shell...解决后检查逻辑是否存在问题,代码是否可以优化(包括逻辑上效率上) 记录结果(图片、表格等) Git与GitHub/Gitee 的使用 Git: https://git-scm.com/ GitHub

1.3K40

【译文】怎样学习R(下)

查看这些不错的资源,你会知道怎样使用tidyr包进行数据的整理。 如果你想进行字符串的操作,你应该学着怎样用stringr包,其中的小插图展示的易于理解,而且提供了各种例子供你入门学习。...dplyr包在处理数据框的对象(在内存外存中)的时候是一个非常棒的包,而且结合了直观形式的语法结构以加快运行速度。...如果想要深入学习dplyr包,你可以在这里收听一下数据操作的课程,同时也可以查阅一下这张小抄。 当你在执行一个繁重的争论任务的时候,data.table包将是你的好帮手。...可以上一下数据分析这门课(来发现data.table包的具体细节,你也可以用这张小抄作为辅助资料。 你是否一直在寻找着能在某个时刻使用时间和数据的机会?...这个 Reporting with R Markdown 4小的课程可以让你了解R mardown,而且此外,你可以使用这样不错的小抄作为你后续用到的资料。

1.3K40

R语言进阶笔记1 | 深挖一门语言的必要性

这本书主要通过tidyverse包的介绍,展示数据分析的各种问题的解决方法,比如 数据清洗:dplyr 数据转换:tidyr 数据读取:readr 可视化:ggplot2 平时,我的工作中,读取数据一般使用...data.tableopenxlsx包,清洗数据一般使用data.tableR自带的函数,有时候就自己编写脚本,编写函数处理。...数据量大,就编写python脚本,对于tidyverse用得较少,看到别人summaries用得贼溜,ggplot2图画的很漂亮,通道函数%/%用得很流畅,不免羡慕。...前几天听大神「谢益辉」的讲座,他提到pandas的作者也加入了RStudio公司,在开发一个项目,提升R对大数据的处理。期待,期待。 3....电梯快到一楼,发现我把编号记错了,我的饭是在三楼!这时电梯到了一楼,进来了两个同事,然后我把电梯关上了,他们用非常惊讶的表情看着我,潜在的意思是“你为什么到了一楼不出去,还要上去!”。

38310

使用R或者Python编程语言完成Excel的基础操作

学术研究:学生在撰写毕业论文或进行学术研究,经常需要处理分析数据,Excel是完成这类任务的常用工具。 灵活性:Excel允许用户自定义工作流程,自动化重复性任务,提高工作效率。...掌握这些技能可以显著提升使用Excel的能力。 在R编程语言中 处理表格数据通常依赖于dplyrtidyr这样的包,它们提供了强大的数据操作功能。...安装和加载必要的包 install.packages("dplyr") install.packages("tidyr") library(dplyr) library(tidyr) 基础操作 读取数据...通过dplyrtidyr包,我们可以轻松地对数据进行复杂的操作。 在R语言中,即使不使用dplyrtidyr这样的现代包,也可以使用基础包中的函数来完成数据操作。...R的基础包进行数据处理可能需要编写更多的代码,并且不如dplyrtidyr这样的专用包那样直观方便。

12110

数据分析可以这样做。

PythonR的简介 R是开源免费的,这一特点让很多人从 SAS SPSS 等传统商业统计软件包转而学习并使用R[1]。...大多数用户使用RStudio编写编辑他们的 R 代码,RStudio是一款用于在 R 中编码的集成开发环境 (IDE)。...大多数用户使用PyCharm编写编辑他们的 Python 代码,PyCharm是由 JetBrains 打造的一款 Python IDE(集成开发环境)。...df.head(10) R语言可以被用来对大型数据集进行数值统计分析,数据探索包有:Dplyr、sqldf、data.table、readr、tidyr等,因此也有大量数据分析/科学人员使用 R 进行探索数据...R软件包,它包含(ggplot2、dplyrtidyr、stringr、magrittr、tibble)等一系列热门软件包,学好tidyverse的使用可也让你站上另一个高度,从而高效的处理数据[2]

89020
领券