首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

tidyverse

背景 Tidyverse 是 Rstudio 公司推出的专门使用 R 进行数据分析的一整套工具集合,里面包括了readr,tidyr, dplyr,purrr,tibble,stringr...1.1 整洁数据 tidyr 名字来自于 tidy(整洁)一词。所谓“整洁数据”,根据 Hadley Wickham 对整洁数据的专门研究,其定义如下: 1....总而言之,让数据变地更好用(符合下层函数参数的格式要求),方便用户查找和阅读。...tidyr 包主要就是用来将数据转换为“整洁数据”的包,主要功能为 1)缺失值的简单补齐 2)长形表变宽形表与宽形表变长形表; 1.2 长数据与宽数据 长数据 宽数据 1.3...二、tidyr 使用案例 library(tidyverse) library(tidyr) tdata <- mtcars[1:10,1:3] tdata gather(tdata) tdata <-

1.7K10

独家 | 用于数据清理的顶级R包(附资源)

每天有数百万或数十亿的数据元素进入您的企业,其中不可避免的存在一些缺乏建立高效业务模型的必要质量的数据元素。然而,确保数据干净整洁应该始终是数据科学工作流程中首要也是最重要的部分。...这是一种快速发现任何潜在数据异常的好方法。 接下来,您可以使用直方图来更好地理解数据的分布。这将可视化显示数据集或您特别希望观察的任何数字列中的任何异常值。...纠正错误 R有许多预先构建的方法来纠正数据错误,例如转换值,就像在Excel或SQL中那样,使用简单的逻辑,例如as.charater()将列转换为字符串。...tidyr包 tidyr包旨在整理您的数据。它的工作原理是识别数据集中的变量,并使用提供的工具将它们移动到具有三个主要功能的列或gather(),separate()和spread()。...它甚至还有一个get_dupes()函数,用于在多行数据中查找重复值。如果您希望以更高级的方式重复数据删除,例如,查找不同的组合或使用模糊逻辑,您可能需要查看重复数据删除工具。

1.4K21
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到

    《高效R语言编程》6--高效数据木匠

    这是本书最重要的一章,将涉及以下内容: 使用tidyr整理数据 使用dplyr处理数据 使用数据库 使用data.table处理数据 软件配置 library("tibble") library("tidyr...tidyr方便了收集与分割两个常见的操作 gather()收集是将列名换成新变量,将宽表变成长表,spread()是实现相反过程的函数。...正则表达式 R与stringr分别使用grepl()和str_detect()来进行,我比较喜欢基础R的,不知你喜欢安装包还是用基本的。...使用dplyr高效处理数据 这个包名的意思是数据框钳,相比基础R的优点是运行更快、与整洁数据和数据库配合好。函数名的部分灵感来自SQL。 ?...非标准计算 代码中没有引号包裹的原始名字,这种方式叫做非标准计算(NSE),高效交互使用函数,减少键盘输入,允许Rstudio中自动完成。还是函数名多个_。

    1.9K20

    R数据科学-2(tidyr)

    R数据科学-2 是用于清洗数据的工具,如dplyr一样,其中每一列都是变量,每一行都是观察值,并且每个单元格都包含一个值。...“ tidyr”包含用于更改数据集的形状(旋转)和层次结构(嵌套和“取消嵌套”),将深度嵌套的列表转换为矩形数据框(“矩形”)以及从字符串列中提取值的工具。...以前是reshape包的内容,当然reshape可以做,但是现在tidyr 处理起来更简洁方便,快速。易于理解。 数据长宽转化 创建一个数据df,然后来进行数据长宽转化实例操作。...image.png 宽数据转成长数据,这里使用gather函数,gathe函数涉及三个参数 gather("key", "value", x, y, z) library(tidyverse) # creat...,这里使用spread函数,spread函数涉及2个参数 df %>% spread(key, value) image.png 重复列变量 有时候会碰到,需要新增一列是重复该变量的多少次,如上述例子中

    96920

    使用Tidyr重塑数据

    虽然R中存在许多基本的数据处理函数,但它们至今仍有一点混乱,并且缺乏一致的编码和容易地将流一起的能力。这导致很难记忆和操作。因此我们需要更有效的代码、更容易记住语法和易于阅读的语法。...而tidyr正是一个这样的包,它的唯一目的是简化创建[tidy data]的过程。...本教程使您基本了解tidyr提供的数据整理的四个基本功能: [gather()]宽数据转化成长数据 [spread()]长数据转变成宽数据 [separate()]将一列数据拆分为多列 [unite()...]将多列数据合并为一列 install.packages("tidyr") library(tidyr) 管道函数%>%运算符将值或表达式的结果转发到下一个函数表达式中。...) 还要注意,如果不为na.rm提供参数或不转换值,则使用默认值。

    87210

    时间序列分解和异常检测方法应用案例

    在这篇文章中,我们将概述anomalize它的作用和方式。 案例研究 我们与许多教授数据科学的客户合作,并利用我们的专业知识加速业务发展。...然而,很少有客户的需求和他们愿意让其他人受益于我们推动数据科学界限的利益。这是一个例外。 我们的客户遇到了一个具有挑战性的问题:按时间顺序检测每日或每周数据的时间序列异常。...它使用基于STL的离群值检测方法,其具有围绕时间序列分解的余数的3X内四分位数范围。它非常快,因为最多有两次迭代来确定异常值带。但是,它没有设置整洁的工作流程。也不允许调整3X。...一些时间序列可能需要更多或更少,这取决于剩余部分的方差的大小与异常值的大小的关系。 tsoutliers包 该tsoutliers软件包非常有效地用于检测异常的许多传统预测时间序列。...基于时间: 整个工作流程使用tibbletime基于时间的索引设置数据。这很好,因为根据我们的经验,几乎所有时间数据都带有日期或日期时间戳,这对数据的特征非常重要。

    1.5K30

    R语言之数据框的合并

    1.纵向合并:rbind( ) 要纵向合并两个数据框,可以使用 rbind( )函数。被合并的两个数据框必须拥有相同的变量,这种合并通常用于向数据框中添加观测。...v.names:这是一个字符串,表示要重塑的值变量的名称。在这种情况下,"conc"表示原始数据中的浓度变量。 idvar:这是一个字符串或向量,表示标识变量的名称或变量列表。...tidyr 包以一种比较简洁统一的格式实现数据长宽格式的转换,其中,函数 pivot_wider( ) 用于把长格式数据转换为宽格式,而函数 pivot_longer( ) 用于把宽格式数据转换为长格式...= "conc") long 一个“整洁”的数据集(tidy data)应该满足:每一行代表一个观测,每一列代表一个变量。...tidyr 包中的 gather() 和 spread() 同样可以用于长型、宽型数据类型转换,详见 Cookbook for R。

    88550

    R 数据整理(七:使用tidyr和dplyr处理数据框 2.0)

    数据集如果用于统计与绘图,需要满足一定的格式要求,(Wickham, 2014) 称之为 整洁数据 (tidy data),基本要求是每行一个观测,每列一个变量,每个单元格恰好有一个数据值。...我们可以使用tidyverse 系统来操作,其中包括了magrittr 包,readr 包,dplyr 包和 tidyr 包等。...2.6 arrange 按照数据框里的某列或某几列,对所有行进行排序。可以使用 desc 产生倒序,或写入多个列使其按照多个列进行排序。...按列号 select(test,1) select(test,c(1,5)) 按列名 如果想要用向量来存放希望筛选的列名,需要使用函数 one_of 来存放该向量。...对于即将合并的新列,需要使用引号;但对于想要合并的多个列名,可以不用使用引号。sep 参数设定多列合并后不同数据分隔使用的分割符。

    10.9K30

    是时候整理烂代码了!

    3、整洁的代码应可由作者之外的开发者阅读和增补 当我们回顾我们曾经写下的代码,有没有遇到过已经无法看懂代码的含义和背后的逻辑的情况。...整洁的代码应该具有良好的可读性,并且当新增、改变需求时,能通过新增代码来完成需求,而不是只能靠修改原有的代码来堆砌代码。...也只有抱着在意代码的心态,才能让代码更优秀,让人赞叹。 我们可以看到,整洁代码最突出的就是可读性和可维护性。...有了可读性才能让代码易于维护,整洁代码能帮助开发者使用较小的成本完成需求的变更。...2、童子军军规 童子军军规引用自美国童子军一条简单的规则:营地应该比来时更干净,借用到代码中就是要求我们需要让代码比我们对其进行改动之前更整洁。

    26410

    网页设计中栅格的应用

    栅格可帮助你轻松将界面上的元素对齐,有效实现一致性。 设计中,有时候,仅靠感觉和大致方向来猜测布局的效果可能不会太理想。所以正确使用网格,会让设计显得有条理,结构合理,整洁并且思考周到。...他们看起来像是会去在意“神奇交叉点“吗? 我不否认当你的图片或设计在适合三分法则的情况下,它是一个很好的准则,或者至少可以是,但是我认为无需太重视这些法则。设计中,只要有道理就可以打破规则。...为了强调某些内容,可以尝试让它脱离栅格或通过大小来实现突显(例如,通过合并列)。 这样可以有效地引起用户的兴趣并在主要设计元素中形成更好的层次结构。...通过让某些特定元素脱离栅格的方式来实现重点的突出,要么会让你的设计非常出彩,但是不够高明的使用则会让设计看起来很笨拙。...他们为页面创造了一个很好的节奏,加上简洁的重复使用,他们的栅格看起来很优雅大方。 最后的想法 总体而言,系统地规划内容排版是整篇文章主题的关键。

    79820

    【教你R语言】转换长宽格式表的落地方案

    前言 做数据分析以及制作表格的时候,会遇到长宽格式数据之间相互转换的问题,之前介绍了如果在Hive是使用sql语句实现,现介绍一下如何在R语言中实现长宽格式数据相互转换。...需求实现 R语言中有两个包中的函数可以实现长宽格式数据的相关转换: ?...value = "detail" ##value值,原来表中字段)##宽格式数据转换成长格式数据gather( data = data1, key = "message", ##key键,新增字段...总结 R语言reshap2和tidyr包都可以实现长宽格式数据相互转换,相比较而言,更喜欢tidyr包中的实现方式,与Hive中类似,中间过渡map格式类型数据,key键和value值明确,结合sql...中map格式数据更容易理解R语言tidyr包中实现方式。

    2K30

    《C++命名之争:驼峰命名法与蛇形命名法的审美对决》

    简洁与连贯 驼峰命名法在视觉上给人一种简洁流畅的感觉。通过将多个单词连接在一起,避免了使用下划线等分隔符,使得名称更加紧凑。...例如,“userName”或“UserName”比“user_name”看起来更加简洁明了。这种简洁性有助于减少代码的视觉噪音,让读者能够更快地聚焦于代码的核心逻辑。 2. ...这种命名方式有助于提高代码的可读性和可维护性,同时也展现出一种整洁的美感。 二、蛇形命名法的独特之处 蛇形命名法(snake_case)以使用下划线来分隔单词而得名。 1. ...这种模块化的命名方式可以提高代码的可维护性,同时也展现出一种严谨的美感。 三、审美优势的比较 1. 视觉效果 从视觉效果上看,驼峰命名法更加简洁流畅,没有下划线的干扰,给人一种整洁的感觉。...而蛇形命名法由于使用了下划线,在视觉上可能会显得稍微复杂一些。然而,对于一些人来说,下划线的存在可以提供更清晰的分隔,使得名称更容易阅读。这取决于个人的审美偏好和阅读习惯。 2.

    11710

    AI写作不再冷冰冰,掌握这4招让文章更有人味!

    AI写作不再冷冰冰,掌握这4招让文章更有人味!AI写作大家好,我是你们的AI写作小伙伴——今天来跟大家聊聊怎么避免AI写作的“生硬感”,让文章看起来不那么像机器写的。...反馈机制:让AI更懂你反馈机制:让AI更懂你虽然AI写作已经相当聪明,但它毕竟还是在执行程序和算法,并不能完全捕捉到你所希望的“风格”或“情感”。这时候,反馈机制就显得尤为重要了。...如果你觉得它写得太长,可以告诉它:“能不能更简洁一点?给我个简短明了的版本。”这样,AI会根据你的反馈进行优化,帮助你写出符合自己需求的文章。我个人经常使用这种反馈机制。...通过这种方式,你可以让AI不断更新自己生成内容的数据库,确保文章的时效性和相关性。让文章更具互动性:用AI打破沉闷打破沉闷有时候,我们的文章虽然很有信息量,但读者往往觉得缺乏互动感。...通过让AI扮演特定角色、给它提供有效的反馈、让文章更有时效性以及增加互动性,我们能够让AI的写作更加生动、贴近人心。

    17510

    数据处理基础—什么是整齐数据和Rich Data

    我们怎么能把不整齐的数据整理整齐? 整齐的数据通常比不整齐的数据更容易使用,特别是如果您正在使用ggplot等软件包。幸运的是,可以使用软件包来整理不整齐的数据。...今天我们将探讨tidyr包中可用的一些功能,这些功能可用于使不整齐的数据变得整齐。...例如,下面的数据框显示了一些学生在5月和6月的测试中获得的百分比。数据是不整洁的,因为列May和June是值,而不是变量。...如果你谷歌“rich data”,你会发现这个术语有很多不同的定义。在本课程中,我们将使用“丰富数据”来表示通过组合来自多个来源的信息生成的数据。...例如,计数除以以单位为中心的特定于细胞的大小因子。 logcounts:日志转换计数或类似计数的值。在大多数情况下,这将被定义为对数转换的范数,例如,使用log base 2和伪计数1。

    1.5K20

    如何让你的代码整洁漂亮?

    阅读字数:2804 | 8分钟阅读 Robert Martin的这句话非常合适: “唯一能有效测量代码质量的方式是每分钟说多少个What-the-Fk ”** 让我深入解释一下: 做代码回顾的时候,我的脑海会涌现出三种不同的情绪...这里没有简单的方法或窍门。 这里有一些你可以掌握的编写整洁美丽代码的方法。...主程用其所选的编程语言的架构来构建一个更丰富,更有表现和更干净的代码块,就像一个完美的讲故事的人 注释并不能弥补劣质的代码 Venus Williams曾很好地说道: “每个人有自己的注释,这就是谣言开始的方式...想要通过清晰的条理,细节的关注和明晰的想法来让人留下深刻印象。再看看代码,如果他们看到乱七八糟的代码,没有清晰的开头和结束,那么毫无疑问会会玷污我们的荣誉。...根据Robert Martin说的:“书写清洁的代码,就需要在疼苦的“清洁”感中,严谨的使用无数小技巧”。而这些小技巧统称代码意识。" 一些人生来有之,其他人就需要通过疼苦的坚持锻炼来获得。

    88180
    领券