开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

plyr::mapvalues的dplyr替代方案(使用字典重新编码)

在云计算领域，plyr::mapvalues和dplyr是R语言中常用的数据处理包。plyr::mapvalues函数用于将向量或数据框中的特定值映射为新的值，而dplyr是一个功能强大的数据处理包，提供了一系列用于数据操作和转换的函数。

在替代plyr::mapvalues的dplyr方案中，可以使用字典重新编码的方式来实现相同的功能。具体步骤如下：

创建一个字典，将需要替换的值作为键，将替换后的值作为对应的值。例如，如果要将"A"替换为"1"，将"B"替换为"2"，则字典可以定义为replacement_dict <- c("A" = "1", "B" = "2")。
使用dplyr包中的mutate函数，结合字典进行值的替换。假设有一个数据框df，其中包含需要替换的列column_name，可以使用以下代码实现替换：df <- df %>% mutate(column_name = replacement_dict[column_name])。

这样，原始数据框中的特定值将被替换为字典中对应的新值。

字典重新编码的优势在于可以灵活地定义替换规则，并且可以批量替换多个值。它适用于需要对数据进行分类、映射或重新编码的场景，例如将文本标签转换为数值编码、将类别变量转换为二进制变量等。

腾讯云提供了多个与云计算相关的产品，其中与数据处理和分析相关的产品包括腾讯云数据万象（COS）、腾讯云数据湖分析（DLA）等。这些产品可以帮助用户在云端进行数据存储、处理和分析，提供了丰富的功能和工具，适用于各种规模和需求的数据处理任务。

腾讯云数据万象（COS）是一种高可用、高可靠、低成本的云端对象存储服务，适用于存储和处理各种类型的数据。它提供了丰富的数据处理功能，包括图片处理、音视频处理、文档转换等，可以满足不同场景下的数据处理需求。更多关于腾讯云数据万象的信息可以在官方网站上找到：腾讯云数据万象。

腾讯云数据湖分析（DLA）是一种快速、弹性、安全的云端数据分析服务，可以帮助用户在云端进行大规模数据的存储、查询和分析。它支持标准的SQL查询语言，可以方便地进行数据分析和挖掘。更多关于腾讯云数据湖分析的信息可以在官方网站上找到：腾讯云数据湖分析。

通过使用腾讯云的数据处理和分析产品，用户可以在云计算环境中高效地进行数据处理和分析，提高数据处理的效率和质量。

相关搜索:使用列表作为字典键的Python替代方案？如何使用dplyr重新编码(和反转代码)列中的变量如何使用dplyr重新编码R中的选择题答案？“在序列上使用字典进行聚合”的替代方案是什么？以相同的方式重新编码多个变量，使用mutate_at和list with dplyr 在python中，有没有比使用不同键的嵌套字典更高效、更易读的替代方案？我可以使用亚马逊网络服务的EventBridge (或替代方案)，以便在一个小时后重新运行一个lambda，如果过去的一个失败了吗？Perl生成随机密码 php获取ip所在地 python快速排序

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言dplyr包分组求均值遇到的一个问题及解决办法

R语言里的dplyr这个包group_by()函数加上summarise()函数分组计算方差均值等非常好用。比如一组数据

04

R语言第二章数据处理(9)数据合并

=========================================

02

左手用R右手Python系列7——排序

排序可能是日常数据清洗过程中比较高频的应用了，今天这一篇给大家介绍R语言和Python中最为常见的排序函数应用。 R语言： sort order rank arrange 排序根据对向量排序和数据框的排序要使用不同的函数，以上四个函数中，前三个是针对向量的，最后一个是针对数据框的。 sort x<-c(97,93,85,74,32,100,99,67) sort(x,decreasing=F) #默认是生序排列，其中decreasing参数默认为FALSE。 sort(x,decreasing=T) #降序

04

21. R 茶话会（二：包函数名冲突问题）

参见：https://mp.weixin.qq.com/s/oxElKitqQjwtD8HkpKk_JQ

01

左手用R右手Python系列——数据合并与追加

今天这篇跟大家介绍R语言与Python数据处理中的第二个小知识点——数据合并与追加。针对数据合并与追加，R与Python中都有对应的函数可以快速完成需求，根据合并与追加的使用场景，这里我将本文内容分成三部分：数据合并（简单合并，无需匹配）数据合并（匹配合并）数据追加数据合并（简单合并，无需匹配）针对简单合并而言，在R语言中主要通过以下两个函数来实现： cbind() dplyr::bind_cols() df1 <- data.frame(A=c('A0', 'A1', 'A2', 'A3'),

07

【R语言】三种批量做T检验的方法

t检验相信大家应该都不陌生。不管是大学里面的数理与统计，还是研究生阶段的生物统计学，里面都会提到t检验。

05

R语言排序问题

解决R语言排序问题的方法： order from base arrange from dplyr setorder and setorderv from data.table arrange from plyr sort from taRifx orderBy from doBy sortData from Deducer Most of the time you should use the dplyr or data.table solutions, unless having no-dependen

02

R语言数据集合并、数据增减、不等长合并

1、merge(a,b)，纯粹地把两个数据集合在一起，没有沟通a、b数据集的by，这样出现的数据很多，相当于a*b条数据；

01

R语言学习笔记之——数据处理神器data.table

数据处理在数据分析流程中的地位相信大家都有目共睹，也是每一个数据从业者面临的最为繁重的工作任务。在实际应用场景下，虽然SQL（SQL类专业的etl语言）是数据处理的首选明星语言，性能佳、效率高、容易培养数据思维，但是SQL没法处理构建全流程的数据任务，之后仍然需要借助其他数据分析工具来对接更为深入的分析任务。 R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在

08

函数冲突报错就完了吗

恰好被隔壁Y叔看到了，所以立马给出来了解决方案，在听说你用的函数又撞名了？可以看到conflicted包超级好用，专门盯着你，让你报错！

02

R语言数据处理——数据合并与追加

数据结构的塑造是数据可视化前重要的一环，虽说本公众号重心在于数据可视化，可是涉及到一些至关重要的数据整合技巧，还是有必要跟大家分享一下的。在可视化前的数据处理技巧中，导入导出、长宽转换已经跟大家详细的介绍过了。今天跟大大家分享数据集的合并与追加，并且这里根据所依赖函数的处理效率，给出诺干套解决方案。数据合并操作涉及以下几个问题：横向合并； 1. 是否需要匹配字段 1.1 匹配字段合并 1.1.1 主字段同名 1.1.2 主字段不同名 1.2 无需匹配字段合并纵向合并：（情况比较简单，列

09

R-rbind.fill|列数不一致的多个数据集“智能”合并，Get！

Q：多个数据集，列数不一致，列名也不一致，如何按行合并，然后保留全部文件的变量并集呢？

04

经历过绝望之后，选择去知乎爬了几张图~

本来今天要跟大家分享怎么批量爬取2016年各大上市公司年报的，可是代码刚写了开头，就发现年报这玩意儿，真的不太好爬，还以为自己写的姿势不对，换了好几个网站。眼睁睁的开着网页源码里排的整整齐齐的pdf文档，可是就是爬不到，NND，还是火候不够，本来打算放弃的，可是想着不干点什么太没成就感了，就跑去知乎爬了人家几张图。之前分享过知乎爬图的代码，当时利用的Rvest爬的，今天换RCurl+XML包来爬，也算是新知识点了。用R语言抓取网页图片——从此高效存图告别手工时代因为害怕爬太多，会被禁IP，毕竟知乎

04

R语言包_dplyr_1

有5个基础的函数： - filter - select - arrange - mutate - summarise - group_by (plus)

02

从 R 迁移到 Python 过程中你需要知道的几个软件库

为什么要用 Python 呢？我喜欢用 Python 来处理机器学习问题的一个重要原因是 Python 吸取了 R 社区的优点，同时还将其进行了优化打包。我一直认为编程语言的能力取决于它的软件库，因此本文将着重介绍我经常使用的一些关于机器学习算法的 R 包和 Python 中的替代包。 glm, knn, randomForest, e1071 -> scikit-learn R 语言的一个缺点是每个机器学习算法都有一个相应的软件包，这大大提升了用户的学习成本。Python 中的scikit-le

07

左手用R右手Python系列——使用多进程进行任务处理

数据抓取中的密集任务处理，往往会涉及到性能瓶颈，这时候如果能有多进程的工具来进行支持，那么往往效率会提升很多。今天这一篇分享在R语言、Python中使用调用多进程功能进行二进制文件下载。导入待下载的文件： library("dplyr") mydata<-read.csv("D:/Python/File/toutiaoreport.csv",stringsAsFactors = FALSE,check.names = FALSE) 抽取报告的url和报告名称： mydata1<-mydata[1:10

09

从R迁移到Python过程中需要知道的几个包

我喜欢用 Python 来处理机器学习问题的一个重要原因是 Python 吸取了 R 社区的优点，同时还将其进行了优化打包。我一直认为编程语言的能力取决于它的软件库，因此本文将着重介绍我经常使用的一些关于机器学习算法的 R 包和 Python 中的替代包。

01

让Single cell UMAP注释支棱起来

最近在画UMAP的时候发现有的时候细胞亚群的注释与点重合颜色上不是很搭配，同事提出让注释“支棱”起来，首先想到的是ggforce中的geom_mark_ellipse，实践中遇到一些问题（比如，ggforce会受outlier影响，看起来比较乱），于是有了这一篇Single cell的记录。

02

R语言技巧 - 多sheet文档读取并合并输出

偶尔我们会遇到将多个sheets合并为一个的需求, 但是如果有几十个sheets合并起来既容易出错又麻烦, 有些时候文档内格式还不统一, 所以用代码跑就对了.

00

分组统计你只想到group_by操作吗？

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。

03

R语言分组计算，不止group_by

最近在研究excel透视图，想到好像自己在R-分组操作并不是很流畅，顺便学习分享一下。R自带数据集比较多，今天就选择一个我想对了解的mtcars数据集带大家学习一下R语言中的分组计算（操作）。

05

数据处理的R包

整理数据的本质可以归纳为：对数据进行分割（Split），然后应用（Apply）某些处理函数，最后将结果重新组合（Combine）成所需的格式返回，简单描述为：Split - Apply - Combine。plyr包是Hadley Wickham为解决split – apply – combine问题而写的一个包。使用plyr包可以针对不同的数据类型，在一个函数内同时完成split – apply – combine三个步骤。plyr包的主函数是**ply形式的，函数名的第一个字符代表输入数据的类型，第二个字符代表输出数据的类型，其中第一个字符可以是(d、l、a)，第二个字母可以是(d、l、a、_ )，不同的字母表示不同的数据格式，d表示数据框格式，l表示列表，a表示数组，_则表示没有输出。

02

你不需要真的这个包，而仅仅是需要它里面的数据

实际上，但凡学过一点点R语言的，都知道如何下载这样的R语言源代码压缩包文件来进行安装。实际上，这个包的的官方说明书也写的很清楚：http://research-pub.gene.com/IMvigor210CoreBiologies/

05

R语言︱机器学习模型评估方案（以随机森林算法为例）

笔者寄语：本文中大多内容来自《数据挖掘之道》，本文为读书笔记。在刚刚接触机器学习的时候，觉得在监督学习之后，做一个混淆矩阵就已经足够，但是完整的机器学习解决方案并不会如此草率。需要完整的评价模型的方式。

02

R可视化：R可视化教程来了！

从本周开始会每周推送1~2次高质量R可视化内容，本系列内容来自github上面超级火爆的R语言可视化项目：tidyTuesday。tidyTuesday每周更新数据，大佬们会使用这些数据集自由创作出各种高质量的R语言可视化作品，是学习R语言数据分析和可视化极好的素材。

03

37.Swift学习之高阶函数

闭包是 Swift 中一个重要的知识点，不仅在开发中能够帮助解决很多问题（如逆向传值），而且在许多官方系统库方法中都能看到它的身影，尤其是在集合中提供了很多高阶函数来对元素进行访问及操作，这些函数大量使用了闭包。重点需要掌握下面列举的函数。

02

R语言数据清洗实战——复杂数据结构与list解析

数据清洗从来都不是一件简单的事情！使用httr包结合浏览器抓包工具进行网页数据抓取虽然非常方便，但是获取的数据后期处理工作量却非常庞大的。因为大部分json数据包返回之后都会被转换为R语言中的非结构化数据类型——list。也就是说，对于list数据结构的处理熟练程度，将会决定着你在数据清洗中所花费的时间与精力。 list数据结构本身即可简单也可复杂，当list中存在递归结构时，其处理难度就大大增加了。（不幸的是大部分json数据包都是递归结构的）对于list数据结构的处理，你可以通过手动构造循环来处

05

数据清洗与管理之dplyr、tidyr

先前已经讲过R语言生成测试数据、数据预处理和外部数据输入等内容，但这仅仅是第一步，我们还需要对数据集进行筛选、缺失值处理等操作，以便获得可以应用于建模或者可视化的数据集（变量）。接下来就以鸢尾花测试数据集进行进一步的数据管理和筛选操作。

04

dplyr-cli：在Linux Terminal上直接执行dplyr

熟悉R的朋友都会知道， dplyr包是对原始的数据集进行清洗、整理以及变换的有力武器之一。但是其使用会局限于你需要有打开R/R studio或者通过R脚本来执行 dplyr。对于这个问题，今天即将需要介绍的 dplyr-cli就能很好的解决这个问题。

01

dplyr排完序，行名没了，有点方！！！

R包dplyr可用于处理R内部或者外部的结构化数据，相较于plyr包，dplyr专注接受dataframe对象, 大幅提高了速度,并且提供了更稳健的数据库接口。%>%来自dplyr包的管道函数，其作用是将前一步的结果直接传参给下一步的函数，从而省略了中间的赋值步骤，可以大量减少内存中的对象，节省内存。

01

R语言 | 第一部分：数据预处理

1.创建数据集/矩阵【data.frame数据框、matrix矩阵、array数组】

00

R语言 | 第一部分：数据预处理

1.创建数据集/矩阵【data.frame数据框、matrix矩阵、array数组】

02

r语言空间可视化绘制道路交通安全事故地图

原文链接:http://tecdat.cn/?p=13255 当我们要可视化事故数量时，其想法是根据部门的人员进行标准化。我们将从恢复底图开始 library(rgdal)library(sp)li

02

Hadley Wickham 采访节选（一）

Hadley (羞涩脸)：“那总比别人叫他们 Hadley-verse好吧！” ╮(╯▽╰)╭

03

左手用R右手Python系列6——变量计算与数据聚合

R语言与Python的Pandas中具有非常丰富的数据聚合功能，今天就跟大家盘点一下这些函数的用法。 R语言： transform mutate aggregate grouy_by+summar

07

R支持同名函数，小心李逵变李鬼

我对ddply()这个函数是不熟悉的，只知道hadley一个过时的包plyr里有一系列这样的函数。所以我首先想到的是这位朋友用错了。不过我马上就排除了，这种问题是非常容易发现和处理的。

01

R语言之可视化④点韦恩图upsetR目录正文

介绍一个R包UpSetR，专门用来集合可视化，当多集合的韦恩图不容易看的时候，就是它大展身手的时候了。

02

使用连接组优化连接 (IM 6)

连接（Join）是数据仓库工作负载的一个组成部分。当连接的表存储在内存中时，IM列存储增强了连接的性能。

03

匿名字典还是dict()函数: Python中字典创建方式的选择

在 Python 中，当您要将一个字典的值传递给函数，或以其他方式使用一个不会被重复利用的临时字典时，有两种简单的方法可以做到这一点：

01

Pyspark学习笔记（五）RDD操作(三)_键值对RDD转换操作

Pyspark学习笔记（一）—序言及目录 Pyspark学习笔记（二）— spark-submit命令 Pyspark学习笔记（三）— SparkContext 与 SparkSession Pyspark学习笔记（四）弹性分布式数据集 RDD（上） Pyspark学习笔记（四）弹性分布式数据集 RDD（下） Pyspark学习笔记（五）RDD操作(一)_RDD转换操作 Pyspark学习笔记（五）RDD操作(二)_RDD行动操作

04

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。

03

文献配套GitHub发表级别绘图05-仍然是散点图的tSNE图

给学徒们收集整理了几套带GitHub源代码的文献图表合辑，让优秀者一点一滴拆解开来分享给大家。

02

深入对比数据科学工具箱：Python和R之争

在真实的数据科学世界里，我们会有两个极端，一个是业务，一个是工程。偏向业务的数据科学被称为数据分析（Data Analysis），也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building)，也就是B型数据科学。从工具上来看，按由业务到工程的顺序，这个两条是：EXCEL >> R >> Python >> Scala 在实际工作中，对于小数据集的简单分析来说，使用EXCEL绝对是最佳选择。当我们需要更多复杂的统计分析和数据处理时，我们就需要转移到 Python和R上。在确定工程实施和大数据集操作时，我们就需要依赖Scala 的静态类型等工程方法构建完整的数据分析系统。 Scala和Excel是两个极端，对于大多数创业公司而言，我们没有足够多的人手来实现专业化的分工，更多情况下，我们会在Python和R上花费更多的时间同时完成数据分析（A型）和数据构建（B型）的工作。而许多人也对 Python和R的交叉使用存在疑惑，所以本文将从实践角度对Python和R中做了一个详细的比较。

04

Python3补充知识点

描述：初学python语言，竟然很久才发现python没有switch-case语句，查看官方文档说是可以用if-elseif-elseif代替，同时也用其他的解决方案比较简单的就是利用字典来实现同样的功能。

02

Python3补充知识点

描述：初学python语言，竟然很久才发现python没有switch-case语句，查看官方文档说是可以用if-elseif-elseif代替，同时也用其他的解决方案比较简单的就是利用字典来实现同样的功能。

01

数据流编程教程：R语言与DataFrame

DataFrame DataFrame 是一个表格或者类似二维数组的结构，它的各行表示一个实例，各列表示一个变量。一. DataFrame数据流编程二. 数据读取 readr/httr/DBI 1

手把手教你画双基因生存曲线

RTCGA是一系列根据数据类型分离的包，相当于要先下载这些离线数据R包之后再直接从离线数据包里面获取TCGA的所有数据。最新的版本可以加载下图所有的包，可谓是非常强大了。

02

Redis 的基础数据结构（三）对象

前两篇文章介绍了 Redis 的基本数据结构动态字符串，链表，字典，跳跃表，压缩链表，整数集合，但是使用过 Redis 的同学会发现，平时根本没有使用过这些数据结构。平时使用的数据结构，包括字符串，列表，哈希，集合，还有有序集合。其实 Redis 的实现是将底层的一种或者几种数据结构进行结合成我们使用的数据结构。

02

SAS or R：谁更适合你？（二）

本期开始大猫将直奔主题，从“语法灵活性（Syntax）”、“性能与并行计算（Performance & Parallel Computation）”、“商业/社区支持（Support）”三个方面比较不同统计软件。本期主题是“语法灵活性（Syntax）”，首先总结我们平时做的研究具有I/O Intensive以及Interactive的特点，然后告诉大家什么样的语法才最适合具有这些特点的研究工作。

02

大道至简——论如何最优雅的操纵json地图数据

前不久写的那个，关于如何提取json格式数据地图素材中的相关数据，来适应ggplot2场景下的数据框作图，其实那个代码写的一直都没有通用性。导致我每做一一个需要使用json地图素材的项目，都需要从新修改那个代码，虽然每一次都能简化不少，但是依然无法适用所有的json素材。知道最近在leaflet社区浏览案例的时候，才发现大神已经提供了很好的json数据解析方案里，起码有两个（保守估计）以上的包可以完胜这个任务，而且是直接调用现成的函数，无需自己编写方案。瞬间感觉死磕在json上的时间都能再过一个五一小

05

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭