开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

使用R中的dplyr/data.table在数据框中使用自定义函数添加新列

在R中，可以使用dplyr或data.table包来在数据框中使用自定义函数添加新列。

使用dplyr包：

首先，安装并加载dplyr包：install.packages("dplyr")，library(dplyr)
使用mutate()函数来添加新列，同时使用自定义函数。例如，假设我们有一个数据框df，想要添加一个新列"new_column"，其中的值是通过应用自定义函数my_function()计算得到的： df <- df %>% mutate(new_column = my_function())

使用data.table包：

首先，安装并加载data.table包：install.packages("data.table")，library(data.table)
使用:=运算符来添加新列，同时使用自定义函数。例如，假设我们有一个数据框dt，想要添加一个新列"new_column"，其中的值是通过应用自定义函数my_function()计算得到的： dt, new_column := my_function()

自定义函数可以是任何你想要的函数，它可以对数据框中的某些列进行计算，并返回一个新的值。你可以根据具体需求编写自定义函数。

这种方法的优势是可以方便地在数据框中添加新列，并且可以使用自定义函数对数据进行灵活的处理和计算。

在腾讯云的产品中，与R和数据处理相关的产品有腾讯云数据仓库（TencentDB）、腾讯云数据湖（Tencent Cloud Data Lake）、腾讯云数据集成（Tencent Cloud Data Integration）等。你可以通过以下链接了解更多关于这些产品的信息：

腾讯云数据仓库：https://cloud.tencent.com/product/dw
腾讯云数据湖：https://cloud.tencent.com/product/datalake
腾讯云数据集成：https://cloud.tencent.com/product/di

相关搜索:如何使用R (dplyr)中几个现有列的中值添加新列？使用dplyr将新列添加到R中的dataframe 使用dplyr在列中创建新组在R中的函数中创建新数据框使用bind_rows R时在新列中添加数据框名称在pandas数据框中添加新列使用VLOOKUP值在数据框中添加新列在R中定义函数时，沿数据框列使用for循环在dplyr和tidyerse中使用$添加列和在R中添加列的不同之处使用dplyr中的组长度创建新列在R中，如何使用变量选择数据框中的列？R函数，用于通过使用其他三列在数据框中添加一列在数据框中创建新列时，使用内置函数替换R中的多个if else语句使用循环在R中添加列使用因子在R中写入新列向数据框中的新列添加值 R使用不同的数据框列条件填充新列将函数中数据框的列名传递给R中的dplyr函数count()？使用R中其他列的case_when添加新列 R使用另一列中的条件添加新列

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

《高效R语言编程》6--高效数据木匠

这是本书最重要的一章，将涉及以下内容：使用tidyr整理数据使用dplyr处理数据使用数据库使用data.table处理数据软件配置 library("tibble") library("tidyr...") library("stringr") library("readr") library("dplyr") library("data.table") 高效的tibble包 tibble定义了新的数据框...使用dplyr高效处理数据这个包名的意思是数据框钳，相比基础R的优点是运行更快、与整洁数据和数据库配合好。函数名的部分灵感来自SQL。 ?...与基本R中类似函数不同，变量无需使用 $ 操作符就可直接使用，设计与magrittr包的%>%管道操作符一起使用，以允许每个数据阶段写成新的一行。其是一个大型包，本身可以看成一门语言。...数据库与dplyr 必须使用src_*()函数创建一个数据源。#　使用data.table()处理数据是dplyr的替代，两个哪个好存在争议，最好学一个一直坚持下去。

1.9K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。..., -State) dplyr中是arrange函数，而data.table是setorder函数，同时降序的方式。...%>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。注意这里的，传递给下一个函数的第一个参数，然后就不用写第一个参数了。在dplyr分组求和的过程中，还是挺有用的。...，相对于对数据框的操作这样就可以像普通的数据框一样使用，谢谢留言区大神！！！！

9.3K4 3

R语言学习笔记之——数据处理神器data.table

合理选择一套自己的数据处理工具组合算是挺艰难的选择，因为这个涉及到使用习惯和迁移成本的问题，比如你先熟知了R语言的基础绘图系统，在没有强大的驱动力的情况下，你可能不太愿意画大把时间去研究ggplot2，...使用fread函数导入之后便会自动转化为data.table对象，这是data.table所特有的高性能数据对象，同时继承了data.frame传统数据框类，也意味着他能囊括很多数据框的方法和函数调用。...data.table列索引列索引与数据框相比操作体验差异比较大，data.table的列索引摒弃了data.frame时代的向量化参数，而使用list参数进行列索引。...当然你要是特别不习惯这种用法，还是习惯使用merge的话，data.table仍然是支持的，因为他本来就继承了数据框，支持所有针对数据框的函数调用。...左手用R右手Python系列——数据合并与追加长宽转换：长宽转换仍然支持plyr中的melt/dcast函数以及tidyr中的gather/spread函数。

3.6K8 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

接下来，我就为大家分享几个我在工作当中最常用来做数据分析用到的包，dplyr和data.table，我保证你get到这两个包后，就再也不想用R里面自带的基础包函数进行数据分析了！！...) 去重 distinct(df,V1,V2) 根据V1和V2两个条件来进行去重在基础包里面也有一个去重函数unique() ※注意distinct()可以针对某些列进行去重，而unique()只能对整个数据框进行去重...mutate( ) 为数据增加新列 mutate(df,vnew1=v1-v2,vnew2=vnew1+v3) 与基础包里的transform()函数接近，但mutate可以使用你刚刚创建的column...找到合适的packages并学习使用它，绝对会让我们数据分析工作事半功倍！我们有没有发现dylyr包中函数使用的一些规律？有的！...①第一个参数都是数据集df ②查询条件都是关于如何操作数据集的，在列上面进行操作 ③返回的都是新的数据集，不会改变原始数据集在介绍下一个包之前，我们先来引入一个dplyr包的综合运用： grouped

2.5K7 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

## #dplyr中基本函数 select——子集选取（筛选变量，列） select(Hdma_dat,pclass,survived) ##选择pclass变量 ?...在base包里和split功能接近的函数有cut(对属性数据分划)，strsplit(对字符串分划)以及subset（对向量，矩阵或数据框按给定条件取子集）等。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...（参考来源：R高效数据处理包dplyr和data.table，你选哪个？） ?...在使用data.table时候，需要预先布置一下环境： datadata.table(data) 如果不布置环境，很多内容用不了。

20.9K3 2

数据流编程教程：R语言与DataFrame

在实际使用中，data.talbe::fread()的读取速度可以比原生的read.csv有3-10倍的提升速度。...其中最亮眼的是，R中的DataFrame和数据库之前可以以整个数据框插入的形式插入数据而不需要再拼接SQL语句。以下是一个官方文档的示例：三....(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合...data.table还参考了NoSQL中流行的Key-Value形式，引入了setkey()函数,为数据框设置关键字索引。...在R中使用DDF，我们不需要修改之前任何的代码，并且绕过Hadoop的绝对限制，就可以让data frame格式的数据，自动获得分布式处理的能力！

3.9K12 0

Python操控Excel：使用Python在主文件中添加其他工作簿中的数据

标签：Python与Excel，合并工作簿本文介绍使用Python向Excel主文件添加新数据的最佳方法。该方法可以保存主数据格式和文件中的所有内容。...图2 可以看出： 1.主文件包含两个工作表，都含有数据。 2.每个工作表都有其格式。 3.想要在每个工作表的最后一行下面的空行开始添加数据。如图2所示，在“湖北”工作表中，是在第5行开始添加新数据。...图3 接下来，要解决如何将新数据放置在想要的位置。这里，要将新数据放置在紧邻工作表最后一行的下一行，例如上图2中的第5行。那么，我们在Excel中是如何找到最后一个数据行的呢？...图4 打开并读取新数据文件打开新数据文件，从中获取所有非空的行和列中的数据。使用.expand()方法扩展单元格区域选择。注意，从单元格A2开始扩展，因为第1列为标题行。...图6 将数据转到主文件下面的代码将新数据工作簿中的数据转移到主文件工作簿中：图7 上述代码运行后，主文件如下图8所示。图8 可以看到，添加了新数据，但格式不一致。

7.9K2 0

R数据框如何取交集

你可以在查询miRNA靶基因的时候限定使用哪些预测软件（如下图红圈所示），这样得到的结果就是多个预测软件预测结果的交集。...我们知道一般在R里，对向量取交集，直接用intersect函数就可以了。...miRNA预测结果都是两列的数据框。...intersect函数来对数据框取交集，结果是不对的而我们希望得到的结果是对两列都取交集。...包里的fintersect函数 #加载data.table包 library(data.table) #将数据框转换成data.table格式，然后利用fintersect函数取交集 result3=fintersect

1.7K2 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里我们主要讲的是它对数据框结构的快捷处理。...会将非数字转化为字符 data.table数据框也可使用dplyr包的管道，这里不作阐述。...showProgress，在工作台显示进程，当用file==""时，自动忽略此参数 verbose，是否交互和报告时间 data.table数据框结构处理语法 data.table[ i , j ,...by] i 决定显示的行,可以是整型，可以是字符，可以是表达式，j 是对数据框进行求值，决定显示的列，by对数据进行指定分组，除了by ，也可以添加其它的一系列参数： keyby，with,nomatch...(x, v)] #取DT的x,v列上x="b",v=3的行 j 对数据框进行求值输出 j 参数对数据进行运算，比如sum,max,min,tail等基本函数，输出基本函数的计算结果，还可以用n输出第

5.9K2 0

R语言数据框、矩阵、列表的创建、修改、导出

数据框数据框的创建数据框来源主要包括用代码新建(data.frame)，由已有数据转换或处理得到(取子集、运算、合并等操作)，读取表格文件(read.csv,read.table等)及R语言内置数据函数...data.frame生成指定数据框的列名及列的内容，如代码所示，此时列名不需添加""，df1为变量名，格式为列名=列的向量*matrix矩阵与向量一样只允许同一种数据类型，否则会被转换，可以理解为二维的向量...$score 的列赋值新向量 df1新增列*新增列名与已有的列名不能一样，否则就是修改向量，默认添加到最后df1$p.value 的元素赋值修改数据框的连接merge函数可连接两个数据框，通过指定公共列使具有相同元素的行的列合并*merge函数可支持更复杂的连接，但通过inner_join等更为简便，后述test1 的标准差，并写出用户使用该函数的代码。

7.9K0 0

R数据科学整洁之道：使用dtplyr处理大文件

有群友问如果文件比较大，读入 R 比较慢怎么办？我告诉他用 data.table 包的 fread 读取。...作为后端，这样做的好处是显而易见的：前端书写 dplyr 语法，简单、优雅后端自动转换为 data.table 代码，提升速度安装 install.packages("dtplyr") 使用...： df %>% lazy_dt() %>% some dplyr verbe %>% as_tibble() 首先，用 lazy_dt() 将数据框转换成“lazy”数据框其次，使用各种...dplyr 动词对数据进行操作最后，用函数将结果转换成数据框最后需要指出的是，dtplyr 通常没有 data.table 快，如果追求极致速度，那么应该直接使用 data.table。...总的来说，dplyr 易用，但速度慢，data.table 速度快，但易用性差一些，而 dtplyr 在两者之间搭起一个桥梁，最终的趋势或许是两者合二为一。

5951 0

「r」dplyr 里的 join 与 base 里的 merge 存在差异

今天在使用连接操作时发现：虽然都是合并操作函数，dplyr 包里的 *_join() 和基础包里面的 merge() 存在差异，不同的数据结构，结果也会存在偏差。...相同的数据，不同的操作函数存在差异在进行连接操作时，我们会发现 dplyr 的结果会报错！...所以使用 dplyr 提供的连接函数报错是正常的，但有意思的是，基础包提供的 merge() 函数可以完成连接操作，真是优秀（感兴趣的朋友可以看下测试下 merge 函数源代码）！...本质上是 data.table 体格的泛型函数不支持类似基础包中的操作。如何编写代码支持对上述数据集的连接操作？...2 S1 S2 S2 S1 S2 更新在后面的一些使用过程中发现基础包的 merge() 函数在进行连接操作时会输出有问题的结果，所以建议使用的小伙伴仔细检查结果。

1.6K3 0

R语言︱情感分析—基于监督算法R语言实现（二）

这里使用`aggregate`统计每篇文章每个词的频次，2行添加了一个辅助列logic，当然不添加辅助列，设置`aggregate`里的FUN参数为`length`函数也能完成，但是数据量大时耗费时间太长..., temp) #不要dplyr包、plyr包同时使用，比如这里就会导致rename函数被覆盖，二者的功能相似，没必要同时加载，或者先加载plyr再加载dplyr。...`randomForest`函数要求为数据框或者矩阵，需要原来的数据框调整为以每个词作为列名称（变量）的数据框。...也就是一定意义上的稀疏矩阵（同关联规则），也就是将long型数据框转化为wide型数据框。转换可以用的包有reshape2以及data.table。...，如果你的电脑报告内存不足的错误，可以使用data.table包里的`dcast`函数试试。

1.8K2 0

文本情感分析：特征提取（TFIDF指标）&随机森林模型实现

这里使用`aggregate`统计每篇文章每个词的频次，2行添加了一个辅助列logic，当然不添加辅助列，设置`aggregate`里的FUN参数为`length`函数也能完成，但是数据量大时耗费时间太长...(traintfidf, temp) #不要dplyr包、plyr包同时使用，比如这里就会导致rename函数被覆盖，二者的功能相似，没必要同时加载，或者先加载plyr再加载dplyr。...`randomForest`函数要求为数据框或者矩阵，需要原来的数据框调整为以每个词作为列名称（变量）的数据框。...也就是一定意义上的稀疏矩阵（同关联规则），也就是将long型数据框转化为wide型数据框。转换可以用的包有reshape2以及data.table。...，如果你的电脑报告内存不足的错误，可以使用data.table包里的`dcast`函数试试。

9.1K5 0

《高效R语言编程》5-高效输入输出

使用rio的通用数据导入多功能包，名副其实，提供简单易用和计算高效的函数，其目标是简化数据导入导出过程。R的数据导入导出手册中有些函数已经过时了，比如WriteXLS包，且很难学习。...：1）基础R的read.csv()，2）fread() 里data.table方法3）较新的readr包里read_csv()函数。...在基础R中stringAsFactors=TRUE时才会将字符不转化为因子，而fread()和read_csv()函数默认返回字符型。...feather文件格式这是为了R语言与Python程序员协作而设计的格式，速度快，轻量、保存数据框是与语言无关。...访问包中的数据示例数据可以用如下方式查看：data(package="dplyr") Data sets in package ‘dplyr’: band_instruments

1.6K2 0

Matt Dowle 演讲节选（二）

在2004年的第一天，Matt 离开了所罗门兄弟，也离开了 S-PLUS。他开始不断尝试，终于用自己的方式重写了[.data.frame这个函数，从而让sum(B)在 R 中也能得以运行。...这里的关键在于，在第一种方法中，每为新的一行赋值，data.table就要重新复制一遍DT，也就是说，第一种方法的运行过程中，DF被复制了1000遍！...因为任何对列的处理都必须导致数据集在内存中的复制，也即假如我们的内存是 4G，那么在使用data.frame的情况下，我们最大就只能处理 2G 的数据集！...一个更极端的例子是，加入你在 4G 内存中装下了一个 3G 的数据集，这时你想要删去其中的一列都是不可能的，因为在data.frame中，哪怕删除操作都会导致数据集的复制！...2014：data.table的现在 fread函数在演讲的最后（演讲在2014年），Matt 提到了当时他正在给data.table添加的新功能：fast read，也即fread函数。

1.1K4 0

学习R语言，一篇文章让你从懵圈到入门

在实际工作中，每个数据科学项目各不相同，但基本都遵循一定的通用流程。...在R和python上都可使用 readr：实现表格数据的快速导入。...BigQuery的R包 PivotalR：用于读取Pivitol（Greenplum）和HAWQ数据库中的数据 dplyr：提供了一个访问常见数据库的接口 data.table：data.table包的...fread()函数可以快速读取大数据集 git2r：用于访问git仓库数据整理以下R包主要用于数据整理，以便于你后续建模分析： tidyr：用于整理表格数据的布局 dplyr：用于将多个数据表连接成一个整齐的数据集...：用于自定义数据表的输出 xtable：用于自定义数据表的输出 highr：用于实现R代码的LaTeX或HTML格式输出 formatR：通过tidy_source函数格式化R代码的输出 yaml：用于实现

3.7K6 0

学习R语言，一篇文章让你从懵圈到入门

在实际工作中，每个数据科学项目各不相同，但基本都遵循一定的通用流程。...在R和python上都可使用 readr：实现表格数据的快速导入。...Google BigQuery的R包 PivotalR：用于读取Pivitol（Greenplum）和HAWQ数据库中的数据 dplyr：提供了一个访问常见数据库的接口 data.table：data.table...包的fread()函数可以快速读取大数据集 git2r：用于访问git仓库数据整理以下R包主要用于数据整理，以便于你后续建模分析： tidyr：用于整理表格数据的布局 dplyr：用于将多个数据表连接成一个整齐的数据集...pixiedust：用于自定义数据表的输出 xtable：用于自定义数据表的输出 highr：用于实现R代码的LaTeX或HTML格式输出 formatR：通过tidy_source函数格式化

3.7K4 0

学习R语言，一篇文章让你从懵圈到入门

在实际工作中，每个数据科学项目各不相同，但基本都遵循一定的通用流程。具体如下： ?...在R和python上都可使用 readr：实现表格数据的快速导入。...Google BigQuery的R包 PivotalR：用于读取Pivitol（Greenplum）和HAWQ数据库中的数据 dplyr：提供了一个访问常见数据库的接口 data.table：data.table...dplyr：用于将多个数据表连接成一个整齐的数据集 purrr：函数式编程工具，在做数据整理时非常有用。...pixiedust：用于自定义数据表的输出 xtable：用于自定义数据表的输出 highr：用于实现R代码的LaTeX或HTML格式输出 formatR：通过tidy_source函数格式化

4.1K3 1

【工具】深入对比数据科学工具箱：Python和R之争

从工具上来看，按由业务到工程的顺序，这个两条是：EXCEL >> R >> Python >> Scala 在实际工作中，对于小数据集的简单分析来说，使用EXCEL绝对是最佳选择。...而许多人也对 Python 和 R 的交叉使用存在疑惑，所以本文将从实践角度对 Python 和 R 中做了一个详细的比较。...内容管理系统：基于Django，Python可以快速通过ORM建立数据库、后台管理系统，而R中的 Shiny 的鉴权功能暂时还需要付费使用。...事实上，现在 R 和 Python 的数据操作的速度已经被优化得旗鼓相当了。下面是R中的 data.table、dplyr 与 Python 中的 pandas 的数据操作性能对比： ?...我曾经用data.table和pandas分别读取过一个600万行的IOT数据，反复10次，data.table以平均10s的成绩胜过了pandas平均15s的成绩，所以在IO上我倾向于选择使用data.table

1.4K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭