首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

tidyverse数据清洗案例详解

介绍 本中你将学习在R中数据处理简洁的方法,称为tidy data。将数据转换为这种格式需要一些前期工作,但这些工作从长远来看是值得的。...一旦你有了整洁的数据和一些包提供的整洁工具,您将花费很少时间将数据从一种表示转换到另一种,从而可以将更多的时间花在分析问题上。 本文将为您提供整理数据的实用介绍以及tidyr包中附带的工具。...如果你想了解更多的基本理论,你可能会喜欢发表在《统计软件杂志》上的tidy data论文[1]。 本文框架 ?...数据清洗案例 我们主要通过一个案例,来了解如何整洁数据,并将案例中的各个有用函数进行详细解读。...我们知道单元格代表案件数,因此我们将变量数存储在cases中,并用na.rm去除含有缺失值的行。这里使用pivot_longer()将数据变长,具体见后面函数详情。

1.6K10
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    新书《R语言编程—基于tidyverse》信息汇总

    语言正名,以在国内推广已如此优秀好用的 R 语言。...这些基本语法是您写 R 代码的基本元素,学透它们非常重要,只有学透它们才能将其任意组合、恰当使用,以写出各种各样的解决具体问题的 R 代码。...tidyverse最大的优势就是以“管道流”、“整洁语法”操作数据,这些语法真正让数据操作从R base的晦涩难记难用,到tidyverse的“一致”、“整洁”好记好用,比Python的 pandas还好用...、最大似然估计; (3) 假设检验,将介绍假设检验原理,基于理论的假设检验:以方差分析、卡方检验为例,并用整洁的rstatix包实现,以及基于重排的假设检验:以 t 检验为例,用最新的infer包实现;...本书所用的软件 本书使用最新版本的R语言4.1.1和RStudio 1.4,主要使用的R包是tidyverse 1.3.1系列。

    2.4K21

    数据处理基础—什么是整齐数据和Rich Data

    gather()获取名称是值的列,key和valueas为两个参数。这次key是变量的名称,其值为列名,而value是值的名称,其值分布在多个列上。...如果您的数据以整齐的格式存储,您会发现分析单细胞RNA-seq数据要容易得多。幸运的是,我们通常用于促进单细胞RNA-seq分析的数据结构通常鼓励以整齐的方式存储您的数据。 ?...如果你谷歌“rich data”,你会发现这个术语有很多不同的定义。在本课程中,我们将使用“丰富数据”来表示通过组合来自多个来源的信息生成的数据。...例如,计数除以以单位为中心的特定于细胞的大小因子。 logcounts:日志转换计数或类似计数的值。在大多数情况下,这将被定义为对数转换的范数,例如,使用log base 2和伪计数1。...请记住,此图表示scater使用SCESet类的原始版本。在最新版本中,这个数字仍然是正确的,除了SCESet可以用SingleCellExperiment类代替。 ?

    1.5K20

    在Entity Framework中使用存储过程(一):实现存储过程的自动映射

    在执行Update或者Delete的SQL中判断之前获取的VersionNo是否和当前的一致。 让解决这些问题,就不能使用EF为我们自动生成的SQL,只有通过使用我们自定义的存储过程。...说白了,就是读取原来的.edmx模型文件,通过分析在存储模型中使用的数据表,导入基于该表的CUD存储过程;然后再概念/存储映射节点中添加实体和这些存储过程的映射关系。...它体现的是这样的映射关系,比如有个数据表明为T_USER(大写,单词之间用“_”隔开,并以T_为前缀),它对应的CUD存储过程名分别为:P_USER_I、P_USER_U和P_USER_D(大写,以代表存储过程的...在Entity Framework中使用存储过程(一):实现存储过程的自动映射 在Entity Framework中使用存储过程(二):具有继承关系实体的存储过程如何定义?...在Entity Framework中使用存储过程(三):逻辑删除的实现与自增长列值返回 在Entity Framework中使用存储过程(四):如何为Delete存储过程参数赋上Current值?

    2.6K60

    R数据科学整洁之道:使用tidyr进行长宽数据转换

    整洁的数据都是相似的,凌乱的数据各有各的不同。...整洁数据(tidy data)是指如下图这样的数据表: 在表中: 每个变量都拥有自己的列 每个观察/样本都拥有自己的行 数据这样组织有两个明显的好处:既方便以向量的形式访问每一个变量,也方便变量之间进行向量化运算...在实际工作中,存在长、宽两种数据格式,宽数据是每个样本的信息在表中只占一行,而长数据每个样本的信息在表中占据多行。 本文简单介绍一下通过tidyr包进行长、宽数据格式转换。...安装 install.packages("tidyr") # 或者 install.packages("tidyverse") 加载 library(tidyr) # 或者 library(tidyverse...以上一步得到的长数据tb_long为例,我们将它还原成宽数据格式: tb_wide_new = pivot_wider(tb_long, names_from = 'year', values_from

    3.8K30

    用最酷的方法学习R语言

    初学R语言的同学,还是在沿用那些过时的、晦涩的R语法, 对R的印象还是停留在5年前:“语法晦涩难懂、速度慢,做统计分析和绘图还行,机器学习只有单独算法的包,做不了深度学习、大数据、工业部署……” ❞ ❝...将整个数据科学流程于一身,而且是以“现代的”、“优雅的”方式,以管道式、泛函式编程技术实现。...这种整洁、优雅的tidy-流,带动了R语言在很多研究领域涌现了一系列tidy-风格的包。...学习资料 电子书还是推荐html的格式,方便copy代码重演结果,如果是英文版的还方便翻译(网页翻译)查看。...「书的特点:」 这本书本来就是研究生的教材,作者王敏杰老师,是四川师范大学的老师,书中内容十分丰富,分享了许多技巧。我也在不断的操作--实践--理解中。

    77220

    【Unity3D】使用 FBX 格式的外部模型 ③ ( FBX 模型中的材质重映射 | FBX 模型使用外部材质 | FBX 模型的分解重组 )

    文章目录 一、FBX 模型中的材质重映射 二、FBX 模型使用外部材质 三、FBX 模型的分解重组 在 FBX 文件中包含了 网格 , 材质 , 纹理贴图 信息 ; 网格 Mesh : 表示 3D 物体的..., 此时发现材质的属性都是灰色的不可编辑的 , 该材质是一个可读文件 ; Unity 中的 FBX 模型 中的材质 可以通过 重映射 ( Remap ) 操作进行修改 : 首先 , 在 Project...按钮 ; 再后 , 在弹出的 Select Material 对话框 中 , 选中想要 重映射 的材质 ; 最后 , 在设置完毕后 , 点击 Apply 按钮 , 应用 材质的重映射操作 ;...材质重映射效果如下 , 注意 Project 文件窗口中的 FBX 模型文件 , 此时已被破坏 ; 二、FBX 模型使用外部材质 ---- 在 Project 文件窗口 中选中 FBX 模型 , 然后在..., 显示的是洋红色 ; 然后在右侧的 Inspector 检查器窗口 中设置一个材质 , 该材质可以设置 FBX 自带的材质 , 也可以使用其它材质 ; 点击 " Inspector 检查器窗口 |

    2.8K40

    安装读取的Excel的包

    readxl支持传统.xls格式和基于XML的现代.xlsx格式。所述libxls C库是用来支持.xls,其提取出大量的底层二进制格式的复杂性。...为了解析.xlsx,我们使用RapidXML C ++库。 安装 从CRAN安装最新发行版本的最简单方法是安装整个tidyverse。...install.packages( “ tidyverse”) 注意:您仍然需要显式加载readxl,因为它不是通过加载的核心tidyverse软件包library(tidyverse)。...使用readxl_example()不带参数的帮助程序将其列出,或使用示例文件名进行调用以获取路径。...非表格数据和格式设置:tidyxl专注于从Excel导入尴尬和非表格数据。它还“以整洁的结构显示单元格内容,位置和格式以供进一步操作”。 请注意,readxl项目是与“参与者行为准则”一起发布的。

    2.1K41

    推荐5本R语言入门学习的在线参考书~用最酷的方法学习R语言

    看大神怎么说 前几天去新疆培训,制作了R语言的基础教程,在翻阅资料时,看到了知乎张敬信关于R学习的观点,很是赞同。...将整个数据科学流程于一身,而且是以“现代的”、“优雅的”方式,以管道式、泛函式编程技术实现。...这种整洁、优雅的tidy-流,带动了R语言在很多研究领域涌现了一系列tidy-风格的包。...学习资料 电子书还是推荐html的格式,方便copy代码重演结果,如果是英文版的还方便翻译(网页翻译)查看。...「书的特点:」 这本书本来就是研究生的教材,作者王敏杰老师,是四川师范大学的老师,书中内容十分丰富,分享了许多技巧。我也在不断的操作--实践--理解中。

    2.8K30

    在Linux系统中使用ntfs、fat32格式的存储设备

    我们通常使用的移动硬盘或U盘一般都是ntfs或fat32的文件系统,作为一名运维工程师,经常会遇到把移动硬盘或者U盘上的内容拷贝的Linux服务器上。...然而,一些Linux系统并不支持直接挂载ntfs文件系统的设备的,比如:CentOS,因此需要安装ntfs-3g才能在LInux系统中读取移动设备中的数据。 1、安装gcc。.../configure –prefix=/usr/local/share/applications/ntfs-3g make&&make install 5、查看一下系统内磁盘设备详情,挂载使用目标设备...6、文件系统为fat32的存储设备挂载、使用就简单得多了,无需安装其他软件,直接挂载即可,下面我们来试一下。 fdisk看到fat32的设备为/dev/sdd4。...中文命名的文件显示了乱码,其他并无异常。

    2.4K40

    技术|在 Linux 上使用 groff-me 格式化你的学术论文

    学习用简单的宏为你的课程论文添加脚注、引用、子标题及其它格式。 当我在1993年发现Linux时,我还是一名本科生。...当groff在处理文档时遇到这些宏中的一个时,它会自动对文本进行格式化。 下面,我将分享使用groff-me编写课程论文等简单文档的基础知识。...要获得您想要的效果,您可以向.b或.i添加第二个参数,以指示以粗体或斜体显示的文本后面跟着的任意文本以正常类型显示。您可以这样做,以确保尾随句点不会以粗体显示。...在groff-me中创建封面需要一些组件。我发现最简单的方法是使用居中的文本块并在标题、名字和日期之间添加额外的行。(我倾向于在每一行之间使用两个空行)。...这份文档非常完美的说明了如何使用groff-me宏来格式化你的论文。

    1.6K30

    小案例:使用To_char的时候,某些SQL语句在SQLPLUS的表示格式发生变化

    有的时候,我们可能突然遇到在sqlplus上,以前执行很正常的sql语句,突然表示的格式发生了变化。并且发现这个sql语句中使用了To_char函数。 例如如下的这个表空间使用率的sql。...dba_free_space group by tablespace_name ) where tablespace_name = free_tablespace_name(+) / 正常的时候是如下格式表示...SCOTT_TBS 44,928 32 12 72.22 但是某一天突然变成了如下串行的格式...这个参数会影响共享cursor的方式。默认值是EXACT。如果改成了SIMILAR或者FORCE就可能发生这个现象。...按照oracle的文档313135.1说明,Cursor_sharing参数的值会影响to_char处理对象列的表示格式。但是由于会影响共享cursor的动作,所有最终没有被修正。

    25710

    R-Purrr的使用,加速数据处理

    R-Purrr的使用,加速数据处理 Tidyverse中包含一个purrr程序包,之前在看数据处理分析时候,一直看到别人的code中,涵盖purrr,map函数,但是一直不知道这个是干什么的,现在发现purrr...Purrr 主要是替换for循环的使用。 Purrr引入了map函数以及一些用于操纵list的新函数。cheatsheet可以速查一些关于Tidyverse使用方法。...在了解purrr之前,需要掌握一些关于Tidyverse的基础。 关于Purrr的教程可以参考詹妮·布赖恩(Jenny Bryan)的教程。 珍妮的教程很棒,但比我的要教程长得多。需要耐心学些。...的方式一致,每个映射函数的第一个参数始终是要映射的数据对象,第二个参数始终是要迭代地应用于输入对象的每个元素的函数。...匿名函数是一个临时函数(您定义为映射的function参数)。 在这里,我使用了参数名称.x,但我可以使用任何参数。

    71620

    生信代码:数据处理( tidyverse包)

    大家在学习R语言的时候,大多参考《R语言实战》这本书,但这本书年代过于久远(中文第二版是2016年),主要着力点也是在R base上,R语言可视化的ggplot2包也只是简要介绍,而对于tidyverse...包,《R语言实战》并未涉及,这也导致R语言的学习难度增加,今天我们给大家引入tidyverse包的学习。...tidyverse 包是 Hadley Wickham 及团队的集大成之作,是专为数据科学而开发的一系列包的合集, 基于整洁数据,提供了一致的底层设计、语法、数据结构,包括数据导入,数据规整,数据处理,...在Rstudio中加载tidyverse包,可以看到该包下有8个子包,著名的ggplot2包即是其中的一个子集,我们先着重讲一下数据处理有关的包——dplyr包。...,我们如果对个人或者科目感兴趣的话,可以使用group_by(name或者type),然后利用summarize函数就可以求出分类之后的各个统计值。

    2.1K10

    R for data science (第一章)①Chapter1 使用ggplot2进行数据可视化

    一辆汽车在高速公路上的燃油效率,以每加仑英里数计算。 当行驶相同距离时,具有低燃料效率的汽车比具有高燃料效率的汽车消耗更多燃料。 要了解有关mpg的更多信息,请通过运行?mpg打开其帮助页面。...mapping参数始终与aes()配对,aes()的x和y参数指定要映射到x和y轴的变量。 ggplot2在data参数中查找映射变量,在本例中为mpg。...例如,您可以将点的颜色映射到类变量以显示每辆汽车的类。...在上面的例子中,我们将类映射到颜色,但我们可以以相同的方式将类映射到大小。在这种情况下,每个点的确切大小将揭示其类别隶属关系。...aes()函数将图层使用的每个aesthetic映射集合在一起,并将它们传递给图层的映射参数。

    2.8K20

    R用于研究,Python用于生产

    想象一下,有一个可以运行的报告,并创建了一个易于共享的 HTML 页面或 PDF 以与您的团队共享。这绝对是比每个星期一早上在 Excel 中点击数百次更惬意的方法。...Shiny 的最佳功能之一,就是通过易于使用的 GUI(图形用户界面)为团队中非聚焦数据的成员提供决策所需的数据科学工具。...想象一下,您的团队聚在一起进行周一下午的计划会议,已经查看了在 Rmarkdown 中创建的上一周的报告,并使用协作式 Shiny Web 应用程序运行模拟以确定下一步将数据引导到何处。...R 总结 由于 tidyverse,R 在用于研究时确实非常特别,它简化了数据整理和可视化过程。坦率地说,精通 tidyverse 后,在 R 中处理数据时,您的工作效率将提高 3-5 倍。 2....customer_counts_tbl % group_by(customer_id) %>% summarize(count = n()) 这种整洁的数据处理工作流,更容易让数据分析师将一系列的操作扩展到

    1.5K20

    在以 CentOS7.6 为基础镜像的 Docker 容器中通过 NFS 将内存挂载成高速硬盘使用

    CentOS7.6 为基础镜像的 Docker 容器中通过 NFS 将内存挂载成高速硬盘使用 文章目录 在以 CentOS7.6 为基础镜像的 Docker 容器中通过 NFS 将内存挂载成高速硬盘使用...通过对问题的分析,我采取了以下解决方案: 通过把内存挂载成硬盘,可以大幅度提高磁盘的性能; 由于不能在同一个容器内进行读写,可以使用 NFS 来解决; 允许使用特权模式,可以在容器内部挂载磁盘...; 不要求数据持久存储,可以把内存当作告诉磁盘来使用; 在同一台主机上,可以不考虑容器的跨主机互联。...在本文中已经对涉及到公司利益部分内容进行处理,例如:文中涉及到的镜像已经移除相关应用,直接以centos7.6.1810为基础镜像。...它会被视为块设备,使用时需要格式化该文件系统。ramdisk 一旦创建就会占用固定大小的物理内存,tmpfs则是动态分配。

    2.2K30
    领券