开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

data.table中的set() -匹配名称而不是列号

data.table中的set()函数是用于在数据表中更新或修改值的函数。它通过匹配列名称而不是列号来定位要更新的列，这使得代码更加易读和可维护。

set()函数的语法如下：

set(DT, i, j, value)

其中，DT是要更新的数据表，i是一个逻辑向量或表达式，用于指定要更新的行，j是一个表达式，用于指定要更新的列，value是要设置的新值。

使用set()函数的优势是可以通过列名称来更新数据，而不需要记住列的位置或使用列索引。这样可以减少出错的可能性，并且使代码更加易读和可维护。

set()函数在以下场景中特别有用：

更新特定行的特定列的值：可以使用逻辑向量或表达式来指定要更新的行，使用列名称来指定要更新的列，从而实现对特定行的特定列进行值的更新。
批量更新多个列的值：可以使用逻辑向量或表达式来指定要更新的行，使用多个列名称来指定要更新的列，从而一次性更新多个列的值。
高效地更新大型数据表：由于set()函数使用列名称而不是列号进行匹配，因此在大型数据表中更新值时，可以避免使用列索引导致的性能问题。

腾讯云的相关产品中，与data.table类似的功能可以在TencentDB for MySQL中找到。TencentDB for MySQL是腾讯云提供的一种高性能、可扩展的关系型数据库服务。它支持SQL语法，可以通过SQL语句来更新和修改数据表中的值。您可以使用TencentDB for MySQL来实现类似于data.table中set()函数的功能，通过指定列名称来更新数据表中的值。

更多关于TencentDB for MySQL的信息和产品介绍，请访问腾讯云官方网站：TencentDB for MySQL

相关搜索:使用列号而不是lm()中的名称 .SDcols中的data.table列号在R中，按列名而不是列号对列进行分组如何根据列的编号而不是列的名称选择数据框中的列如何根据列的名称而不是索引来选择数据帧中的列范围？汇总名称在data.table中具有特定模式的列按字段引用而不是按列字符串名称隐藏DataGridView中的列根据data.table中的某些匹配替换列的某些值按名称在另一个data.table中的data.table引用列列中而不是行中的DataField值 #039而不是MySQL数据库中的撇号在SQL Server中更新时，获取列下的值，而不是列名称从mysql数据库中通过列号而不是JAVA中的列名来获取数据？如何在数据库中插入主键而不是名称列仅循环遍历与字符串匹配的名称，而不是整个数组如何从Alexa请求中获得匹配的话语文本，而不是意图名称？根据字符列对data.table进行排序，并记住特定的(而不是字母顺序的)顺序 Rspec -访问描述上下文中的描述名称，而不是`it`中的名称在Dataframe中划分两列并将结果放在现有列中，但按索引而不是名称引用列需要对透视中的列求和，而不是按列分组

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

R语言数据分析利器data.table包 —— 数据框结构处理精讲

)直接修改某个位置的值，rownum行号，colnum，列号，行号列号推荐使用整型，保证最快速度，方法是在数字后面加L，比如1L，value是需要赋予的值。...； drop,需要取掉的列名或者列号，要其它的； colClasses，类字符矢量，用于罕见的覆盖而不是常规使用，只会使一列变为更高的类型，不能降低类型； integer64,读如64位的整型数;...不然就是"," col.names,给列名，默认试用header或者探测到的，不然就是V+列号; encoding，默认"unknown"，其它可能"UTF-8"或者"Latin-1"，不是用来重新编码的..., by=x][order(x)] #和上面一样，采取data.table的链接符合表达式 DT[v>1, sum(y), by=v] #对v列进行分组后,取各组中v>1的行出来，各组分别对定义的行中的...roll 当i中全部行匹配只有某一行不匹配时，填充该行空白，+Inf(或者TRUE)用上一行的值填充，-Inf用下一行的值填充，输入某数字时，表示能够填充的距离，near用最近的行填充 rollends

5.9K2 0

R语言基因组数据分析可能会用到的data.table函数整理

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...设置了这个选项，就会自动忽略autostart选项，也可以是一个字符,skip="string",那么会从包含该字符的行开始读； select 需要保留的列名或者列号，不要其它的； drop...需要取掉的列名或者列号，要其它的； colClasses 类字符矢量，用于罕见的覆盖而不是常规使用，只会使一列变为更高的类型，不能降低类型； integer64 读如64位的整型数;...，y需要设置key，x并不需要设置key； by.x,by.y 用来计算重叠的列名或者列号的矢量，by.x和by.y的最后两列都应该对应各自的(x,y的）start和end区间列，并且start...默认FALSE结果返回x和y行的联合，当是TRUE时，如果mult=“all”，返回两列，一列x列号，一列相对应的y，如果nomatch=NA，不匹配的返回y的NA,如果nomatch=0,则跳过该列

3.4K1 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

注意: data.table之后，一些常规的data.frame的操作就失效了，譬如： data[,-1]、data[,1]这样的操作就不是这么用的了。...，而data.table的筛选方式很传统，比较简单。...2、on=""方式 DT[X, on="x"] 这里的on指的是DT变量中的变量名称，X还是按照key，如果没设置就会默认第一行为key。...返回匹配到键值所在列(V2列)所有行中的第一行 > DT["A", mult ="first"] V1 V2 V3 V4 1: 1 A -1.1727 1 2、nomatch参数——未匹配样本处理...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？

9.3K4 3

R语言︱情感分析—基于监督算法R语言实现（二）

aggregate相当于把每个文档的词去重了一下，不是ID去重，在不同文档中也可能存在相同的词。...，不如添加辅助列，而FUN参数调用`sum`函数速度快，这句的意思就是按照id、term、label三列分组后对logic求和。...所以用了dplyr包中的left-join函数，left_join(x,y,by="name") ##xy匹配到的都保留。...可参考博客：给R变个形图4 4.2 训练集- 随机森林模型随机森林模型不需要id项，通过row.names把id这一列放在R默认序号列，如图4中的第一列。...答：dcast重排的时候，是按照term的名称大小写的顺序来写的，所以肯定和训练集的结构是一致的！为什么图5中，一些词语的Id为0，而dcast之后，不存在0id的个案呢？

1.8K2 0

懒癌必备-dplyr和data.table让你的数据分析事半功倍

) 去重 distinct(df,V1,V2) 根据V1和V2两个条件来进行去重在基础包里面也有一个去重函数unique() ※注意distinct()可以针对某些列进行去重，而unique()只能对整个数据框进行去重..."B")] 使用j DT[,v1] #选择v1列那如果我要选择多列呢，大家注意一下这里不是用c()来选取了，而是通过.()来选取，注意前面有一个”.”号，所以我说data.table的语法有点奇怪呢...(sum(v1),sd(v3))] data.table居然支持直接在j上进行列的计算，看到这里是不是觉得超牛逼，关键是代码非常简洁，一句话的事，就帮我们完成数据的筛选和计算了！ DT[,....(sum_v1=sum(v1),sd_v3=sd(v3))] 还可以直接给计算的列赋予名称哦！！功能强大得我都要笑开花了！使用by 这还只是小试牛刀，你忘了我们还有个by吗！！ DT[,....以上讲的这些只是我工作中data.table用得最多的功能，它的强大之处还远远不止这些！如果你想深入，可以去官网下载文档，你绝对值得拥有！

2.5K7 0

data.table包使用应该注意的一些细节

fread中nThread 参数的使用注意默认nThread=getDTthreads()，即使用所有能用的核心，但并不是核心用的越多越好，本人亲自测试的情况下，其实单核具有较强的性能，只有在数据大于...3Gb的情况下，开启10核（我的机器全部核心30多核）效率才比一个核心更高，而默认使用全部的核心效率一直非常低。...因此对于不是非常巨大的文件，建议设置为1，不要使用全部核心 fread中sep是自动检测的所以在循环读入文件的过程中，就算不同文件的分隔符不同，也可以循环一次性方便的读入；还有就算后续改变了文件的分隔符...as.data.table函数中同样有一个rownames参数，设置为T可以将行名保留下来作为data.table的一列不建议set和for循环一起使用虽然set可以在内存上直接改变数值，但在R... 类似于集合运算，data.table中fintersect, fsetdiff, funion，fsetequal函数能对不同数据框的行求交集，差集，并集等可以直接对列按分隔符进行分割应用

1.5K1 0

data.table包不讲武德，欺负老实人

事情是这个样子的，今天上午，高高兴兴的写代码，把data.table放到循环里面，批量读取文件，批量赋值，写完运行后发现结果是错误的，查看Warning发现是类型不一致，就这个问题记录了一下。...有两种解决方法： 1，将列的类型变为一致，比如你的数字列要赋值为字符，那就先把数字列变为字符，再赋值 2，可以将赋值的字符的行和被赋值的行一样，这样也不会报错 1....重演错误：将x列变为a1 > df$x = "a1" Warning messages: 1: In set(x, j = name, value = value) : Coercing 'character..., value = value) : 强制改变过程中产生了NA 这里的报错信息是，右边是字符，左边是数字，类型不匹配，所以报错。...字符列赋值数字，就正常「这不是赤裸裸的歧视吗！！！」

9065 0

R语言与python对数据框的操作(对比笔记)

1. data.table VS pandas 这里使用R语言的data.tablet包和python的pandas进行对比....使用R语言, 通过data.table创建数据框. library(data.table) set.seed(123) DT data.table(V1=c(1,2),V2=c("A","B","...选择多行 DT[3:5] DT[3:5,] 选择列 DT[,2] ? 可以使用.()号, 返回数据框 DT[,.(V2)] # 同上 ?...2.2 行列筛选选择V2等于A的列 DT[V2=="A"] ? 也可以使用下面这种形式 DT[V2=="A",] ?...df.to_csv("df.csv",index=0) # 对象.to_csv, 不是pd.write(df,"df.csv")!!!

2.9K2 0

「R」数据操作（三）：高效的data.table

是选择行而不是列： product_info[1] #> id name type class released #> 1: T01 SupCar toy vehicle yes...提供了一系列支持语义的set函数，它们可以原地修改data.table，因此避免不必要的复制。...的动态作用域我们不仅可以直接使用列，也可以提前定义注入.N、.I和.SD来指代数据中的重要部分。...，每条记录了钻石的10个属性，现在我们队cut列中的每种切割类型都你拟合一个线性回归模型，由此观察每种切割类型中carat与depth是如何反映log(price)的信息。...("volume") #> year average #> 1: 2015 4000 #> 2: 2016 4003 我们可以利用此包专门的语法创造一个列数动态变化的组合，并且组合中的列是由动态变化的名称决定的

6.4K2 0

「Workshop」第五期：使用data.table操作数据

data.table 查看代码[1] data.table的基本框架 ?...按相同的列内容进行data.table组合 ?...y的区域完全包含在x的区域内的情况（相等也属于within） type = "any" 匹配y和x有重叠的区域 type = "start" 匹配start一样的情况 type = "end"匹配end...其他 nomatch = NULL 返回匹配得上的部分 setkey() 设置匹配索引参数which = TRUE 是只返回两个数据框匹配情况的行号参数mult = "first" 是返回x中第一次匹配上的行...对应y中列的名称数据的拆分和合并 melt() dcast() > reshape_dt data.table(kinds = c(rep("peach", 2), rep("grape",

3.3K5 0

用data.table语句批量处理变量

写在前面本期“大猫R语言公众号”仍由“村长”供稿。村长继续为大家奉上data.table使用案例心得，希望大家能够继续支持村长！！...问题：批量处理表中变量正式开始说问题之前，我们先回顾一下data.table的基本语句DT[i, j, by]，简而言之，"i"是对行进行选择，"j"是对列进行操作，"by"是分组。...我们知道在data.table包中，.SD是经过i和by处理之后剩下的那部分数据集，它的格式是一个data.table，同时它是一个list。...如何把处理好的这些变量与变量名进行对应，这里就用到了colnames()这个函数，提取出我们这个data.table第3到第34个变量的名字，这样就可以将变量名和更改格式后的变量按顺序进行一一匹配。...运行有报错，这就需要注意.SD的用法了，我们首先看报错提示语句的意思是：:=的左边并不是字符、整数或者数值格式。

1.2K3 0

「R」data.table 包功能特性学习

来自很久之前的官网文档。 data.table包提供了一个加强版的data.frame。它运行效率极高，而且能够处理适合内存的大数据集。它通过[ ]实现了一种自然的数据操作语法。...如果你还没有安装该包，运行： install.packages("data.table") 导入包 library(data.table) 创建一个data.table set.seed(45L)...DT[, sum(V1)] ## [1] 18 # 返回V1列的和，V3列的标准差为一个data.table DT[, ....-0.746 8 ## 9: 0.341 9 ## 10: -0.703 10 ## 11: -0.380 11 ## 12: -0.746 12 # 删除列名指定在Cols.chosen中的列...A的第一个匹配行 DT["A", mult="first"] ## V1 V2 V3 V4 ## 1: 1 A 0.341 1 # 最后一个匹配行 DT["A", mult="last

1.9K1 0

文本情感分析：特征提取（TFIDF指标）&随机森林模型实现

aggregate相当于把每个文档的词去重了一下，不是ID去重，在不同文档中也可能存在相同的词。...，不如添加辅助列，而FUN参数调用`sum`函数速度快，这句的意思就是按照id、term、label三列分组后对logic求和。...所以用了dplyr包中的left-join函数，left_join(x,y,by="name") ##xy匹配到的都保留。...图4 4.2 训练集- 随机森林模型随机森林模型不需要id项，通过row.names把id这一列放在R默认序号列，如图4中的第一列。...答：dcast重排的时候，是按照term的名称大小写的顺序来写的，所以肯定和训练集的结构是一致的！为什么图5中，一些词语的Id为0，而dcast之后，不存在0id的个案呢？

9.1K5 0

如何批量给自己的文件重命名

是不是看得眼花缭乱。你要是不乱的话，反正我是乱了！！！要是鼠标点点点，想想这个工作量，都是可怕。而且，中间还不能出错喔，万一年份搞错了，那排查起来，可又是想跳楼的心都有。...好办，通过xpt[,2]和tmp[,'Data File']列进行匹配，以确定自己是否全部文件已经下载完成。...最后就是拼接，tmp文件中，第一列（Years）和第四列(Data File）拼接起来： ?...xpt <- mutate(xpt,mainNames = mainNames) ##通过xpt[,2]和tmp[,'Data File']列进行匹配...tmp <- tmp[tmp$`Data File` %in% xpt$mainNames,] ##构建最后重命名的文件名称

1.7K2 0

MR应知应会：MungeSumstats包

Sum 和整数值在输出中创建 N 列，而 Giant、metal 或 ldsc 创建 Neff 或有效样本大小。如果传递多个，则会指示用于推导它的公式。...convert_n_int 如果N（样本数）不是整数，是否应该四舍五入？默认值为 TRUE。Analysis_trait 如果研究多个性状，则用于 GWAS 分析的性状名称。默认值为 NULL。...analysis_trait 如果研究多个性状，则用于 GWAS 分析的性状名称。默认值为 NULL。 INFO_filter 插补信息分数允许的最小值（如果在 sumstatsfile 中存在）。...默认为 TRUE Convert_ref_genome要转换的参考基因组的名称（“GRCh37”或“GRCh38”）。仅当当前基因组构建不匹配时才会发生这种情况。默认不转换基因组构建（NULL）。...但是，如果 youf 文件中的列标题丢失，我们提供的映射不正确，您可以提供自己的映射文件。必须是 2 列数据框，列名称为“未更正”和“已更正”。

2.5K1 1

R语言数据框、矩阵、列表的创建、修改、导出

R语言将列名的特殊字符-转化了，该编号可能与其他数据中编号无法匹配，ex2 的函数决定的，不是由后缀决定的，save为csv实际上还是一个Rdata#readr包可以实现base包中的类似功能library(data.table)#其中的fread...#Rdata是真实存在的文件，保存了数据框、向量、矩阵等变量而不是csv等表格文件#Rdata只有save与load两个操作，格式如下save(soft,file = "soft.Rdata")rm(list...= ls())load(file = "soft.Rdata") #使Rdata中的向量出现在环境内，本身有名称，无需赋值矩阵和列表矩阵矩阵内所有元素数据类型必须相同*警惕因数据类型不同导致矩阵强制转换引起报错...3.筛选test中，Species列的值为a或c的行test[test$Species %in% c("a","c"),]#注意本题至少有三个问题，第一是值a，c为字符型，要加""，第二是向量是c()不是

7.9K0 0

十、文件读写

###小技巧：图片 # data.table 读取任何形式的文件，包括问题文件 soft = data.table::fread("soft.txt",data.table = F) #正常文件...soft = data.table::fread("abc.mp4",data.table = F) #问题文件 # rio library(rio) a = import("complete_set.txt...") ###只导出工作簿sheet1 练习5-1: 6.加载y.Rdata（已保存在工作目录）,求gene1列的平均值. load("y.Rdata") View(y) mean(y$gene1)...class不能识别文件名称，是只能识别数据的函数。判断数据类型的时候不带引号，不带后缀。...不允许转换其中一列或者一行，要改除非整个矩阵一起改. ###只有把整个矩阵转换成数据框。

1.8K4 0

Matt Dowle 演讲节选（二）

相比之下，markdown不仅对于代码有着先天的支持，而且只要在第一次设定好css，以后每次编辑的时间几乎为零，直接复制粘贴到公众号平台就可以渲染出非常漂亮的网页，简直美滋滋！...在这行代码中，B 的值来自于 DF 这个表，而不是 global environment。...换句话说，哪怕在 global environment 中存在一个叫做 B 的变量，那么data.talbe在运行的时候也会“认” DF 中的那个叫做 B 的列，而不是 global environment...2004-2012： data.table不断进化一开始的data.table只是 Matt 为了方便自己工作而创作的，到了2008年，Matt 在 GPL 开源协议下发布了data.table。...现在我们再玩得大点，假设你有 20G 的 csv 文件，2亿行，16列，哪怕你为每个列都指定了class，read.csv("test.csv")也需要好几个小时才能运行完，而fread只要—— 8 分钟

1.1K4 0

好强一个Julia！CSV数据读取，性能最高多出R、Python 22倍

木易发自凹非寺量子位报道 | 公众号 QbitAI 工欲善其事，必先利其器。一项便捷且高效的语言对于数据工作者来说是至关重要的。...单线程CSV.jl是没有多线程的Pandas（Python）的1.5倍，而多线程的CSV.jl可以达到11倍。字符串数据集 I 此数据集在且具有1000k行和20列，并且所有列中不存在缺失值。 ?...区别在于，其每一列是存在缺失值的。 ? Pandas需要300毫秒。单线程中，CSV.jl比R快1.2倍，而多线程相比，CSV.jl则快约5倍。...单线程CSV.jl比从data.table中读取的R速度快约1.5倍。而多线程，CSV.jl的速度提高了约22倍！ Pandas的read_csv需要34秒才能读取，这比R和Julia都要慢。...我认为从旧技术过渡到新技术的十年之久并不是一个糟糕的时标，甚至没有接近网络技术的翻版。

2K6 3

数据流编程教程：R语言与DataFrame

其中最亮眼的是，R中的DataFrame和数据库之前可以以整个数据框插入的形式插入数据而不需要再拼接SQL语句。以下是一个官方文档的示例：三....(): 按列变量选择 filter(): 按行名称分片 slice(): 按行索引分片 mutate(): 在原数据集最后一列追加一些数据集 summarise(): 每组聚合为一个小数量的汇总统计，通常结合...gruop_by()使用 arrange(): 按行排序（2）关联表查询 inner_join(x, y): 匹配 x + y left_join(x, y): 所有 x + 匹配 y semi_join...(x, y): 所有 x 在 y 中匹配的部分 anti_join(x, y): 所有 x 在 y 中不匹配的部分（3）集合操作 intersect(x, y): x 和 y 的交集（按行） union...对比操作对比data.table 和 dplyr 的操作： 3. apply函数族 4. join 操作 5. 拼接操作更多操作详情可查看data.table速查表。八.

3.9K12 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭