开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Dplyr摘要和group_by，但保留非数值变量

Dplyr是一个R语言中用于数据处理和操作的包，它提供了一组简洁且一致的函数，可以轻松地进行数据筛选、排序、汇总、变形等操作。而摘要（summary）和group_by是dplyr包中两个常用的函数。

摘要（summary）函数：摘要函数用于计算数据集的统计摘要信息，包括计数、均值、中位数、最小值、最大值等。它可以帮助我们快速了解数据的整体情况，发现异常值或者数据分布特征。
group_by函数： group_by函数用于按照指定的变量对数据集进行分组，以便进行分组操作和汇总计算。通过group_by函数，我们可以将数据集按照某个或多个变量进行分组，然后对每个组进行相应的操作，如计算每组的均值、中位数、总和等。

Dplyr在数据处理和操作方面具有以下优势：

简洁高效：dplyr提供了一组简洁一致的函数，使得数据处理和操作变得更加直观和高效。
高性能：dplyr使用了C++的底层实现，使得数据处理速度更快，尤其适用于大规模数据集。
易于学习和使用：dplyr的函数命名规范和语法结构都很规范，易于学习和记忆，使得数据处理变得更加简单和便捷。

Dplyr的应用场景包括但不限于：

数据清洗和预处理：通过dplyr的函数可以对数据集进行筛选、排序、去重、缺失值处理等操作，以便进行后续的分析和建模。
数据汇总和统计：使用dplyr的函数可以对数据集进行分组、汇总、计数、摘要等操作，以便进行数据分析和可视化。
数据变形和重塑：通过dplyr的函数可以对数据集进行变形、透视、合并等操作，以满足不同分析需求。
数据抽样和采样：使用dplyr的函数可以对数据集进行随机抽样、分层抽样等操作，以便进行数据分析和模型训练。

腾讯云提供了一系列与云计算相关的产品，其中与数据处理和操作相关的产品包括：

腾讯云数据仓库（TencentDB）：提供高性能、可扩展的云数据库服务，支持数据存储、查询、分析等操作。
腾讯云数据分析（Data Analysis）：提供数据分析和挖掘的云服务，支持数据清洗、建模、可视化等操作。
腾讯云大数据分析平台（Tencent Cloud Big Data）：提供大数据处理和分析的云平台，支持数据处理、机器学习、人工智能等操作。

你可以通过以下链接了解更多关于腾讯云相关产品的详细信息：

请注意，以上答案仅供参考，具体产品选择和推荐应根据实际需求和情况进行评估。

相关搜索:dplyr::group_by保留变量未分组如何在指定数值变量精度的同时，使用` `dplyr::distinct()`在数据框中保留唯一行？小数位数过多的Odoo货币舍入 rsync的排除不会根据模式排除吗？使用AutoGenerateColumns和Cellbackground的C# wpf数据网格 axios.post.then在所有其他操作之后都会被调用如何从数组中计算string类型的时间为什么xgboost在与mlr3一起使用时没有计算所有变量的重要性？Angular 9:上传图像时如何将HEIF文件格式转换为已知的web格式如何在类型上使用属性包装器来抽象单例？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

懒癌必备-dplyr和data.table让你的数据分析事半功倍

本文介绍了如何使用dplyr和data.table两个R包进行数据清洗、数据加工和数据分析，通过几个实际案例展示了dplyr和data.table的常用功能和高效操作。

07

数据处理|R-dplyr

arrange函数按给定的列名进行排序，默认为升序排列，也可以对列名加desc()进行降序排序。

01

R语言数据处理：飞机航行距离与到达延误时间有什么关系??

数据分析有一半以上的时间会花在对原始数据的整理及变换上，包括选取特定的分析变量、汇总并筛选满足条件的数据、排序、加工处理原始变量并生成新的变量、以及分组汇总数据等等。这一点，我想大部分使用EXCEL的童鞋都深有体会，写论文时，这么多的数据进行处理，手动汇总、筛选、变换，工作量实在是太大。而本文介绍的dplyr包简直就是Hadley Wickham （ggplot2包的作者，被称作“一个改变R的人”）大神为我们提供的“数据再加工”神器啊。本文试图通过一个案例，对神奇的dplyr包的一些常用功能做简要介绍

04

生信代码：数据处理（ tidyverse包）

大家在学习R语言的时候，大多参考《R语言实战》这本书，但这本书年代过于久远（中文第二版是2016年），主要着力点也是在R base上，R语言可视化的ggplot2包也只是简要介绍，而对于tidyverse包，《R语言实战》并未涉及，这也导致R语言的学习难度增加，今天我们给大家引入tidyverse包的学习。

01

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

鹅厂分布式大气监测系统：以 Serverless 为核心的云端能力如何打造？

导语 | 为了跟踪小区级的微环境质量，腾讯内部发起了一个实验性项目：细粒度的分布式大气监测，希望基于腾讯完善的产品与技术能力，与志愿者们共建一套用于监测生活环境大气的系统。前序篇章已为大家介绍该系统总体架构和监测终端的打造，本期将就云端能力的各模块实现做展开，希望与大家一同交流。文章作者：高树磊，腾讯云高级生态产品经理。一、前言本系列的前序文章[1]，已经对硬件层进行了详细的说明，讲解了设备性能、开发、灌装等环节的过程。本文将对数据上云后的相关流程，进行说明。由于项目平台持续建设中，当前已开源信息

tidyverse：R语言中相当于python中pandas+matplotlib的存在

tidyverse就是Hadley Wickham将自己所写的包整理成了一整套数据处理的方法，包括ggplot2、dplyr、tidyr、readr、purrr、tibble、stringr、forcats。出版有《R for Data Science》（中文版《R数据科学》），这本书详细介绍了tidyverse的使用方法。

01

R入门？从Tidyverse学起！

很多人推荐《R语言实战》这本书来入门R，当然，这本书非常不错，我也是通过这本书开始接触的R。这种入门的学习路径属于base R first，学习的流程基本是先了解变量的类型、数据的结构，再深入点就会学到循环与自定义函数。有些类似于先认识编程，再按照数据处理、可视化、统计分析等应用方向开始下一个学习的旅程。

03

用R处理不平衡的数据

在分类问题当中，数据不平衡是指样本中某一类的样本数远大于其他的类别样本数。相比于多分类问题，样本不平衡的问题在二分类问题中的出现频率更高。举例来说，在银行或者金融的数据中，绝大多数信用卡的状态是正常的，只有少数的信用卡存在盗刷等异常现象。

05

数据预处理技术研究 | 冰水数据智能专题 | 1st

数据预处理是数据挖掘的重要一环，要使挖掘方案挖掘出丰富的知识，就必须为它提供干净、准确、简洁的数据。然而实际应用系统中收集到的原始数据是“脏”的，不完全的、冗余的和模糊的，很少能直接满足数据挖掘算法的要求。在海量的实际数据中无意义的成分也很多，严重影响了数据挖掘算法的执行效率，其中的噪声干扰还会造成无效的归纳。预处理已经成为数据挖掘系统实现过程中的关键问题。

03

教你几招R语言中的聚合操作

在数据处理和分析过程中，可能会涉及到数据的聚合操作（可理解为统计汇总），如计算门店每天的营业总额、计算各地区的二手房的平均价格、统计每个消费者在近半年内最后一笔交易时间等。如果基于数据库SQL的语法来解决这些问题，将会显得非常简便，如果没有数据库环境该如何实现类似聚合问题的解决呢？

02

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

由于业务中接触的数据量很大，于是不得不转战开始寻求数据操作的效率。于是，data.table这个包就可以很好的满足对大数据量的数据操作的需求。

04

关于海量数据处理分析的经验总结

笔者在实际工作中，有幸接触到海量的数据处理问题，对其进行处理是一项艰巨而复杂的任务。原因有以下几个方面：一、数据量过大，数据中什么情况都可能存在。如果说有10条数据，那么大不了每条去逐一检查，人为处理，如果有上百条数据，也可以考虑，如果数据上到千万级别，甚至过亿，那不是手工能解决的了，必须通过工具或者程序进行处理，尤其海量的数据中，什么情况都可能存在，例如，数据中某处格式出了问题，尤其在程序处理时，前面还能正常处理，突然到了某个地方问题出现了，程序终止了。二、软硬件要求高，系统资源占用率高。对海量的数据

08

dplyr-cli：在Linux Terminal上直接执行dplyr

熟悉R的朋友都会知道， dplyr包是对原始的数据集进行清洗、整理以及变换的有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。对于这个问题，今天即将需要介绍的 dplyr-cli就能很好的解决这个问题。

01

Excel太烦、python太难，我用它就能轻松搞定数据可视化

小李在一家连锁超市企业的IT部门，经常要帮业务部分做数据分析，公司信息化建设发展比较落后，IT部门也只有两个人，各种各样的数据表经常让小李加班加到头疼，每次辛辛苦苦做好的分析报告，老板还总嫌丑。

02

数据清洗与管理之dplyr、tidyr

先前已经讲过R语言生成测试数据、数据预处理和外部数据输入等内容，但这仅仅是第一步，我们还需要对数据集进行筛选、缺失值处理等操作，以便获得可以应用于建模或者可视化的数据集（变量）。接下来就以鸢尾花测试数据集进行进一步的数据管理和筛选操作。

04

「R」数据操作（七）：dplyr 操作变量与汇总

除了选择已存在的列，另一个常见的操作是添加新的列。这就是mutate()函数的工作了。

02

【R语言】基础知识|dplyr管道函数处理表格

data<-read_excel("~/Desktop/Excel学习/表姐牌口罩销售数据.xlsx")

03

腾讯云EMR&Elasticsearch中使用ES-Hadoop&云HDFS进行数据交换和备份

腾讯云EMR和ES是两款非常火热的大数据分析产品，长期以来一直是分别在客户场景下使用的，不过随着云上CHDFS产品的上线，以及ES-Hadoop等插件的完善，两者结合使用有了比较成熟的方案，下面就介绍一下相关使用的方式：

01

云端数智新引擎，腾讯云原生数据湖计算重磅发布

引言是否遇到过，一个简单的业务统计需求却让数据工程师们抓耳挠腮？是否遇到过，业务峰值周期明显，要么资源大量闲置，要么线上疯狂告警？是否遇到过，大数据集群运维复杂，需要投入大量技术工程师？针对以上痛点，腾讯云发布云原生数据湖计算服务，协同腾讯云端数据湖体系，帮助企业高效构建云端数据湖架构、降低数据计算成本，提升数据分析敏捷性、激发数据应用价值，助力企业数字化决策。本文作者：ericshhxie 一、数据湖的前世今生 2010年 Pentaho 公司的创始人兼首席技术官詹姆斯·狄克逊（Jame

03

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭