开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

将函数输出作为新列添加到data.table中，而不命名这些列

在云计算领域中，将函数输出作为新列添加到data.table中，而不命名这些列是一种常见的数据处理操作。这种操作可以通过以下步骤实现：

首先，确保你已经安装了R语言和data.table包。如果没有安装，可以通过以下命令安装data.table包：
首先，确保你已经安装了R语言和data.table包。如果没有安装，可以通过以下命令安装data.table包：
导入data.table包并创建一个data.table对象。假设你已经有一个名为"mydata"的data.table对象，其中包含了需要处理的数据。
导入data.table包并创建一个data.table对象。假设你已经有一个名为"mydata"的data.table对象，其中包含了需要处理的数据。
定义一个函数，该函数将作为新列添加到data.table中。函数可以是任何你需要的操作，例如计算、转换或过滤等。
定义一个函数，该函数将作为新列添加到data.table中。函数可以是任何你需要的操作，例如计算、转换或过滤等。
使用data.table的"[, :=]"语法将函数输出作为新列添加到data.table中。在"[, :=]"语法中，左侧是新列的名称，右侧是函数的调用。
使用data.table的"[, :=]"语法将函数输出作为新列添加到data.table中。在"[, :=]"语法中，左侧是新列的名称，右侧是函数的调用。
这将在mydata中添加一个名为"new_column"的新列，并将myfunction应用于"old_column"列的每个元素。
如果你想要添加多个新列，可以在"[, :=]"语法中使用逗号分隔多个函数调用。
如果你想要添加多个新列，可以在"[, :=]"语法中使用逗号分隔多个函数调用。
这将在mydata中添加名为"new_column1"和"new_column2"的两个新列，并分别将myfunction1和myfunction2应用于对应的列。

在实际应用中，将函数输出作为新列添加到data.table中可以帮助我们进行数据处理和分析。例如，我们可以使用这种方法计算某一列的累积和、平均值、标准差等统计指标，或者进行数据转换和筛选等操作。

腾讯云提供了一系列与数据处理和分析相关的产品和服务，例如云数据库 TencentDB、云原生数据库 TDSQL、云数据仓库 CDW、云数据湖 CDL、云数据集市 DMS、云数据迁移 DTS 等。你可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用指南。

相关搜索:Pandas，如何将一行中的值与同一列中的所有其他行进行比较，并将其作为新列中的新行值添加到新列中？Python 3.6 -将输出作为新列添加到dataframe，然后输出到excel SAS代码在输出中错误地将宏变量的值作为新列/变量传递仅将pandas行的所有字符串值作为列表添加到新列中使用pandas将表中不同值出现的计数值作为新列添加到表中使用散布行的杂乱数据帧(例如，将每一块观察值添加到一行中)，并将书尾行移到新列中作为标识符？在R中创建一个函数，该函数将输入作为dataframe，对分组的列进行排序并生成序列。DF1中没有新的专栏如何在不命名列的情况下，在所有其他列的函数中创建新列如何在数据帧中输入缺失的sd，然后将列sd上的NAs作为函数自动强制到新的数据帧中？如何对匹配模式的列进行grep，计算这些列的行平均值，并将平均值作为新列添加到r中的数据框中？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...,list或者data.frame,而name时属性名，value时属性值，setnames(x,old,new)，设置x的列名，old是旧列名或者数字位置，new是新列名 setcolorder(x...(sv=sum(v))] #对y列求和，输出sv列，列中的内容就是sum(v) DT[, ....x到之间的列作为子集，然后.SD 输出所有子集 DT[2:5, cat(y, "\n")] #直接在j 用cat函数，输出2到5列的y值 DT[, plot(a,b), by=x] #直接在j用plot...SD就包括了页写选定的特定列，可以对这些子集应用函数处理 allow.cartesian FALSE防止结果超出nrow(x)+nrow(i)行，常常因为i中有重复的列而超出。

5.8K2 0

R语言基因组数据分析可能会用到的data.table函数整理

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...，不要其它的； drop 需要取掉的列名或者列号，要其它的； colClasses 类字符矢量，用于罕见的覆盖而不是常规使用，只会使一列变为更高的类型，不能降低类型； integer64...by ]语法做但是如果我要将上述DT中的v3作为一个影响因素，作为tag，先按v1、v2汇总，再将对应的v4值分为v3=1和v3=2两类，查看v1、v2取值相同v3不同对应v4的情况，这个时候用dcast...； verbose 如果TRUE，在工作台产生交互信息，默认options(datatable.verbose=TRUE) 对于前面的DT，我现在将f和d开头的列名的列作为测量变量，如下 pattern...index列，默认(NULL)不产生，如果idcol=TRUE，行名自动为.id，当然你也可以直接命名，比如idcol="id"； between 是data.table i 语法的扩展功能

3.3K1 0

能不能让R按行处理数据？

首先，假设我有一个这样的数据集（暂且命名为t1）： ? 现在我想做的是对于每一行，找出非NA的值，填充到“mean.scale”这个新的变量；如果有多个非NA，那么就计算其平均值。...(fund_name)] 其中的关键在于拼接函数c()，它将不同列的向量拼接成了一列。另外，这个操作是不是有点熟悉？...事实上，data.table也整合了reshape中的cast和melt函数，并且将cast函数升级为dcast，感兴趣的小伙伴可以去研究一番。在拉直数据后，接下来要做的工作就很简单了。...首先，别忘了mean中的na.rm = T参数，它能够让函数忽略缺失值。...本期总结本期大猫带领大家学习了如何在R中按照行进行处理。R的数据处理哲学是向量，是列，但这并不妨碍我们按照行进行处理，其中的关键，就在于运用 c() 函数把不同的向量拼接成一个向量。

1.4K2 0

MR应知应会：MungeSumstats包

这只能作为最后的手段。 force_new_z 当“Z”列已经存在时，默认使用它。要从 P 设置为 TRUE 覆盖并计算新的 Z 分数列。 compute_n 是否插补 N。...Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...该逻辑变量指示如果频率值似乎与主要等位基因相关，即 >0.5，则 FRQ 列应重命名为 MAJOR_ALLELE_FRQ。默认情况下不会发生映射，即为 TRUE。...请注意，这些列将出现在返回的格式化摘要统计信息中。 log_folder日志文件和要存储的 MungeSumstats 消息日志的目录路径。默认是临时目录。...基因组转换 MungeSumstats 将 liftover() 函数作为通用工具提供给用户。

1.9K1 1

RNA-seq入门实战（三）：在R里面整理表达量counts矩阵

counts与TPM矩阵: 读取counts.txt构建counts矩阵；样品的重命名和分组；counts与TPM转换；基因ID转换；初步过滤低表达基因与保存counts数据从salmon输出文件中获取...- a1[,7:ncol(a1)] #截取样本基因表达量的counts部分作为counts rownames(counts) <- a1$Geneid #将基因名作为行名 #更改样品名 colnames...初步过滤低表达基因与保存counts数据我们的数据中会有很多低表达甚至不表达的基因，在后续分析中可能会影响数据的分析判断，因此需要对低表达的基因进行筛除处理。筛选标准不唯一，依自己数据情况而定。...（这个是正常现象，因为我们的gtf文件里面的基因数量太多了，都是五六万个，而正常情况下我们的样品里面就两万多个基因是有表达量的） #### 初步过滤低表达基因 ####（筛选标准不唯一、依情况而定） #...counts矩阵需要用到tximport包从salmon输出文件中获取counts矩阵，在tximport函数中输入quant.sf文件路径、转换类型type = "salmon"、以及转录本与基因名

17.2K4 5

「R」数据操作（三）：高效的data.table

例如，使用setkey()将id设置为product_info中的一个键： setkey(product_info, id) 同样的，函数无任何返回，但我们已经为原始数据设置了键，而且原来的数据看起来也没变化...中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table自动将...，我们使用data.table来完成这个任务，使用setDT()将数据框转换为data.table，该函数可以原地转换，不需要复制，并可以设定键。...仍以product_stats为例，我们可以使用setDF()函数不要任何复制就可以将data.table变成data.frame。...为演示，我们先创建新的data.table，命名为market_data，其中date列是连续的。

6.1K2 0

R语言数据框、矩阵、列表的创建、修改、导出

/则为上一级）#文件是由生成它的函数决定的，不是由后缀决定的，save为csv实际上还是一个Rdata#readr包可以实现base包中的类似功能library(data.table)#其中的fread...函数可以避免此前的错误a<-fread("soft.txt",data.table = F)class(a)#但其不会有行名，且其会有一个data.table的数据结构多出来，可以设置data.table...5df1df1$score <- c(12,23,50,2) #为列名为score的列赋值新向量 df1新增列*新增列名与已有的列名不能一样，否则就是修改向量，默认添加到最后df1$p.value...，需要分别指出作为公共列的列名也可以借助dplyr包中的函数test1 <- data.frame(name = c('jimmy','nicker','Damon','Sophie'),...，参数是一个数值型向量，输出结果是该向量的平均值加2倍的标准差，并写出用户使用该函数的代码。

7.7K0 0

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在着性能和效率的绝大差异...rm(list=ls()) gc() 2、索引切片聚合 data.table中提供了将行索引、列切片、分组功能于一体的数据处理模型。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,....如果想要运行的同时进行输出则可以在结尾加上[] setorder(mydata,carrier,-arr_delay)[] ? 这个功能有点儿类似于基础函数中，在语句外部加上圆括号。...以上语法加入了新的参数.SDcols和.SD,咋一看摸不着头脑，其实是在按照carrier,origin,dest三个维度分组的基础上，对每个子块特定列进行均值运算。

3.6K8 0

Matt Dowle 演讲节选（二）

> DF[2:3, sum(B)] 注：在 S-PLUS 中，以上命令必须要用一种非常不直观的方式写出来，如下: > sum(DF[2:3, "B"]) 2004：data.table诞生 2004...Matt 将这个包取名为data.table，意味源于data.frame，但又不仅仅是data.frame。 ?...换句话说，哪怕在 global environment 中存在一个叫做 B 的变量，那么data.talbe在运行的时候也会“认” DF 中的那个叫做 B 的列，而不是 global environment...选择、运算、分组，三个截然不同的命令被完美的整合到了DF[i, j, by]的语法中，更妙的是，上一步运算的结果可以直接作为下一步的输入数据集！...这里的关键在于，在第一种方法中，每为新的一行赋值，data.table就要重新复制一遍DT，也就是说，第一种方法的运行过程中，DF被复制了1000遍！

1.1K4 0

R语言︱情感分析—基于监督算法R语言实现（二）

这里使用`aggregate`统计每篇文章每个词的频次，2行添加了一个辅助列logic，当然不添加辅助列，设置`aggregate`里的FUN参数为`length`函数也能完成，但是数据量大时耗费时间太长...，不如添加辅助列，而FUN参数调用`sum`函数速度快，这句的意思就是按照id、term、label三列分组后对logic求和。...先构造一个n（缺失词）*length(训练集变量个数)的空矩阵，然后将确实存在放入这个矩阵中，temp[,3]函数；把空矩阵的变量名，改成训练集的变量名，对的上模型，names函数；将缺失值与原值进行合并...为什么图5中，一些词语的Id为0，而dcast之后，不存在0id的个案呢？...图6 （2）测试集的随机森林建模测试集建立随机森林模型，还是需要去除缺失值，然后重命名列名，因为模型不接受id这一行作为输入变量，输入的数据集一定要干净。 test <- test[!

1.7K2 0

data.table包使用应该注意的一些细节

3Gb的情况下，开启10核（我的机器全部核心30多核）效率才比一个核心更高，而默认使用全部的核心效率一直非常低。...as.data.table函数中同样有一个rownames参数，设置为T可以将行名保留下来作为data.table的一列不建议set和for循环一起使用虽然set可以在内存上直接改变数值，但在R... 类似于集合运算，data.table中fintersect, fsetdiff, funion，fsetequal函数能对不同数据框的行求交集，差集，并集等可以直接对列按分隔符进行分割应用...tstrsplit函数可以将一列按照分隔符分成多列，函数返回的是一个列表，举例：DT[, c("c1", "c2") := tstrsplit(x, "/", fixed=TRUE)][]，将x列按照/...分隔，分割成c1，c2两列支持类似于SQLs的分组运算带有rollup， cube， groupingsets函数参考资料 data.table 1.11.2 manual：https://cran.r-project.org

1.5K1 0

5个例子比较Python Pandas 和R data.table

我们将介绍的示例是常见的数据分析和操作操作。因此，您可能会经常使用它们。我们将使用Kaggle上提供的墨尔本住房数据集作为示例。...data.table) melb <- fread("datasets/melb_data.csv") 示例1 第一个示例是关于基于数据集中的现有列创建新列。...我们使用计数函数来获得每组房屋的数量。”。N”可作为data.table中的count函数。默认情况下，这两个库都按升序对结果排序。排序规则在pandas中的ascending参数控制。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。...inplace参数用于将结果保存在原始数据帧中。对于data.table，我们使用setnames函数。它使用三个参数，分别是表名，要更改的列名和新列名。

3.1K3 0

文本情感分析：特征提取（TFIDF指标）&随机森林模型实现

这里使用`aggregate`统计每篇文章每个词的频次，2行添加了一个辅助列logic，当然不添加辅助列，设置`aggregate`里的FUN参数为`length`函数也能完成，但是数据量大时耗费时间太长...，不如添加辅助列，而FUN参数调用`sum`函数速度快，这句的意思就是按照id、term、label三列分组后对logic求和。...先构造一个n（缺失词）*length(训练集变量个数)的空矩阵，然后将确实存在放入这个矩阵中，temp[,3]函数；把空矩阵的变量名，改成训练集的变量名，对的上模型，names函数；将缺失值与原值进行合并...图6 （2）测试集的随机森林建模测试集建立随机森林模型，还是需要去除缺失值，然后重命名列名，因为模型不接受id这一行作为输入变量，输入的数据集一定要干净。 test <- test[!...(3)随机森林模型的验证常见的应用在监督学习算法中的是计算平均绝对误差（MAE）、平均平方差（MSE）、标准平均方差（NMSE）和均值等，这些指标计算简单、容易理解；而稍微复杂的情况下，更多地考虑的是一些高大上的指标

8.8K4 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...arrange函数，而data.table是setorder函数，同时降序的方式。...（1）data.table多种方式混合输出： mydata[,....（2）dplyr函数利用%>%（链式操作）来改进：链式操作是啥意思呢？ %>%的功能是用于实现将一个函数的输出传递给下一个函数的第一个参数。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？

8.2K4 3

懒癌必备-dplyr和data.table让你的数据分析事半功倍

distinct()可以针对某些列进行去重，而unique()只能对整个数据框进行去重。...mutate( ) 为数据增加新列 mutate(df,vnew1=v1-v2,vnew2=vnew1+v3) 与基础包里的transform()函数接近，但mutate可以使用你刚刚创建的column...我们有没有发现dylyr包中函数使用的一些规律？有的！...作为课代表的我来帮大家简单的总结一下：我们都知道R有个令人诟病的缺点就是跑起来耗内存，data.table相对于dplyr 更快、更节省内存了！...以上讲的这些只是我工作中data.table用得最多的功能，它的强大之处还远远不止这些！如果你想深入，可以去官网下载文档，你绝对值得拥有！

2.4K7 0

Learn R 函数和R包

函数与参数形式参数与实际参数形式参数99%可以删除图片命名新的函数 > jimmy <- function(a,b,m = 2){ + (a+b)^m + }。...iris[,5]) > plot(iris[,4],col = iris[,5]) #当一个代码需要复制粘贴三次，就应该写成函数或使用循环,用新的函数进行代替 > jimmy save(soft,file = "soft.Rdata") >rm(list = ls()) #将环境中的所有数据清空为了看保存的文件 >load(file = "soft.Rdata") 练习...read.table()智能版 >a=data.table::fread("soft.txt",data.table = F)#读取很智能，不会导致窜列 #### 4.rio包可以读取任何形式，但有问题的文件仍有问题

1.4K0 0

如何把时间序列问题转化为监督学习问题？通俗易懂的 Python 教程

给定一个 DataFrame， shift() 函数可被用来创建数据列的副本，然后 push forward （NaN 值组成的行添加到前面）或者 pull back（NaN 值组成的行添加到末尾）。...下面是例子：运行该例子显示出，新的一列的最后一个值是一个 NaN 值。可以看到，预测列可被作为输入 X，第二行作为输出值 (y)。输入值 0 就可以用来预测输出值 1。...函数返回一个单个的值： return: 序列的 Pandas DataFrame 转为监督学习。新数据集创建为一个 DataFrame，每一列通过变量字数和时间步命名。...完整函数在下面，包括注解。有了整个的函数，现在可以开始探索怎么用它。一步的单变量预测在时间序列预测中，使用滞后观察（比如 t-1）作为输入变量来预测当前时间不，是通用做法。...举个例子：运行这个例子会输出数据的新框架，显示出两个变量在一个时间步下的输入模式，以及两个变量一个时间不的输出模式。取决去问题的具体内容。

2.5K7 0

《高效R语言编程》6--高效数据木匠

") library("stringr") library("readr") library("dplyr") library("data.table") 高效的tibble包 tibble定义了新的数据框...tibble会打印每个变量的类，data.frame不会 stringAsFactors默认不转换输出时，只输出前10行使用tidyr与正则表达式整理数据整理数据包括数据清理和数据重构，前者是重定格式与标记脏数据...tidyr方便了收集与分割两个常见的操作 gather()收集是将列名换成新变量，将宽表变成长表，spread()是实现相反过程的函数。...函数名的部分灵感来自SQL。 ? 与基本R中类似函数不同，变量无需使用 $ 操作符就可直接使用，设计与magrittr包的%>%管道操作符一起使用，以允许每个数据阶段写成新的一行。...非标准计算代码中没有引号包裹的原始名字，这种方式叫做非标准计算（NSE），高效交互使用函数，减少键盘输入，允许Rstudio中自动完成。还是函数名多个_。

1.9K2 0

开发 | 如何把时间序列问题转化为监督学习问题？通俗易懂的 Python 教程

给定一个 DataFrame， shift() 函数可被用来创建数据列的副本，然后 push forward （NaN 值组成的行添加到前面）或者 pull back（NaN 值组成的行添加到末尾）。...下面是例子：运行该例子显示出，新的一列的最后一个值是一个 NaN 值。可以看到，预测列可被作为输入 X，第二行作为输出值 (y)。输入值 0 就可以用来预测输出值 1。...函数返回一个单个的值： return: 序列的 Pandas DataFrame 转为监督学习。新数据集创建为一个 DataFrame，每一列通过变量字数和时间步命名。...完整函数在下面，包括注解。有了整个的函数，现在可以开始探索怎么用它。一步的单变量预测在时间序列预测中，使用滞后观察（比如 t-1）作为输入变量来预测当前时间不，是通用做法。...举个例子：运行这个例子会输出数据的新框架，显示出两个变量在一个时间步下的输入模式，以及两个变量一个时间不的输出模式。取决去问题的具体内容。

1.6K5 0

R练习50题 - 第一期

为了去重，我们需要借助于data.table中的unique函数。我们希望最终的输出是一个字符串向量： ?...unique：找出symbol中不重复的值。在data.table的语法中，先进行列选择操作，再对列进行处理。所以上述语句会先执行str_detect，再执行unique。...代码第二行生成了一个新变量num。由于在keyby语句中我们已经按照日期与涨跌进行了分组，所以这一步我们只需要统计每个组有多少个股票就可以了。我们在这里使用了uniqueN这个函数。...它是data.table内置函数之一，和unique几乎执行相同的操作，唯一不同的是，unique返回的是不重复的item（是一个向量），而uniqueN返回的是不重复的数量（是一个数字）。...我们的答案中，行、列以及分组三条语句各占一行，实际上这仅仅是为了让代码更直观。

2.4K4 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭