在R中使用data.table时，如何有效地替换单个列中指定的多个列值？ - 腾讯云开发者社区

我们在对比系统目前存在的生日与身份证的时候会问，怎么只取其中值的特定位置，获得对比结果。例如我们有一个值是123456789,那么我们怎么只显示4567呢？...= RBD AND table2.ResidentialID like '__________________' 我们可以参考w3schools 的介绍。也就是，从身份证第7位起，长度为8位。...注意，他和程序中的index不一样，开始第一个字符就是1，而不是0。

6.8K2 0

如何使用Excel将某几列有值的标题显示到新列中

如果我们有好几列有内容，而我们希望在新列中将有内容的列的标题显示出来，那么我们怎么做呢？ Excel - TEXTJOIN function 1....- - - - 4 - - - 在开始，我们曾经使用INDEX + MATCH的方式，但是没有成功，一直是N/A https://superuser.com/questions/1300246/if-cell-contains-value-then-column-header...所以我们后来改为TEXTJOIN函数，他可以显示值，也可以显示值的标题，还可以多个列有值的时候同时显示。...- - 4 - - - 15 Year 5 - - - - 5 - - - =TEXTJOIN(", ",TRUE,IF(ISNUMBER(B2:I2),$B$1:$I$1,"")) 如果是想要显示值，...则： =TEXTJOIN(", ",TRUE,IF(ISNUMBER(B2:I2),B2:I2,"")) 其中，ISNUMBER(B2:I2)是判断值是不是数字，可以根据情况改成是不是空白ISBLANK

11.3K4 0

您找到你想要的搜索结果了吗？

是的

没有找到

问与答62：如何按指定个数在Excel中获得一列数据的所有可能组合？

excelperfect Q：数据放置在列A中，我要得到这些数据中任意3个数据的所有可能组合。如下图1所示，列A中存放了5个数据，要得到这5个数据中任意3个数据的所有可能组合，如列B中所示。...如何实现？ ? 图1 （注：这是无意在ozgrid.com中看到的一个问题，我觉得程序编写得很巧妙，使用了递归的方法来解决，非常简洁，特将该解答稍作整理后辑录于此与大家分享！）...Then lRow = lRow + 1 Range("B" & lRow) = Join(vResult, ", ") '每组组合放置在多列中...，有兴趣的朋友可以使用F8键逐语句运行代码观察代码效果，来理解实现过程。...代码的图片版如下： ? 如果将代码中注释掉的代码恢复，也就是将组合结果放置在多列中，运行后的结果如下图2所示。 ? 图2

5.6K3 0

「R」数据操作（三）：高效的data.table

接「R」数据操作（一）和「R」数据操作（二）使用data.table包操作数据 data.table包提供了一个加强版的data.frame，它运行效率极高，而且能够处理适合内存的大数据集，它使用[]...N是最常用的符号之一，它表示当前分组中，对象的数目（就不用调用nrow函数啦）。在[]使用它指提取最后一行。...(waterproof)] #> waterproof V1 #> 1: no 10.00 #> 2: yes 5.75 可以看到结果存储在V1列中，我们可以手动指定列名...data.table中，by所对应的组合中的值是唯一的，虽然实现了目标，但结果中没有设置键： key(type_class_test0) #> NULL 这种情况下，我们可以使用keyby来确保结果的data.table...，每条记录了钻石的10个属性，现在我们队cut列中的每种切割类型都你拟合一个线性回归模型，由此观察每种切割类型中carat与depth是如何反映log(price)的信息。

6.4K2 0

R语言数据分析利器data.table包 —— 数据框结构处理精讲

将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...DT的属性，setattr(x,name,value) x时data.table,list或者data.frame,而name时属性名，value时属性值，setnames(x,old,new)，设置x...)直接修改某个位置的值，rownum行号，colnum，列号，行号列号推荐使用整型，保证最快速度，方法是在数字后面加L，比如1L，value是需要赋予的值。...,默认FALSE,如果TRUE，跳过空白行 key，设置key，用一个或多个列名，会传递给setkey showProgress,TRUE会显示脚本进程，R层次的C代码 data.table,TRUE...roll 当i中全部行匹配只有某一行不匹配时，填充该行空白，+Inf(或者TRUE)用上一行的值填充，-Inf用下一行的值填充，输入某数字时，表示能够填充的距离，near用最近的行填充 rollends

5.9K2 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。...SD只能在位置j中使用。 .SDcols常于.SD用在一起，他可以指定.SD中所包含的列，也就是对.SD取子集。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列

9.3K4 3

R语言基因组数据分析可能会用到的data.table函数整理

因此，在对大数据处理上，使用data.table无疑具有极高的效率。这里主要介绍在基因组数据分析中可能会用到的函数。...，默认Windows是"\r\n",其它的是"\n"； na,na 值的表示，默认""； dec 小数点的表示，默认"...，默认_； subset 指定要铸造的子集;利用； margins 函数尚不能应用（作者还没写好），预计设定编辑汇总方向； fill 填充缺失值； drop 设置成FALSE...by ]语法做但是如果我要将上述DT中的v3作为一个影响因素，作为tag，先按v1、v2汇总，再将对应的v4值分为v3=1和v3=2两类，查看v1、v2取值相同v3不同对应v4的情况，这个时候用dcast...也有不同之处，一是use.names参数，可以指定是否使用相同列名bind，二是rbindlist可以使用在不知道对象名字的情况下，比如lapply(fileNames, fread) 。

3.4K1 0

手把手教你用R语言读取CSV文件

注意我们如何显式地使用参数名file、head和sep。函数的参数能够按位置顺序赋值，而不用显式指定参数名，但指定参数名是最佳实践。第二个参数header，表示数据的第一行，即列名。...将该参数设为FALSE（默认是TRUE）可使字符所在列不被转换成factor列。这样既节省计算时间（当大数据集包含许多字符列，也意味着有许多唯一值），又能保留列为字符。...读取大CSV文件和其他文本文件的两个主流的函数是read_delim和fread，前者在readr包中由Hadley Wickham实现，后者在data.table包中由Matt Dowle实现。...注意，数据读取为tbl_df对象，它是tbl的扩展，也是data.frame的扩展。tbl是data.frame的特殊类型，它在dplyr包中定义。每列的数据类型显示在列名的下面，这是个很好的功能。...在数据管理、多层次模型、机器学习、广义线性模型、可视化、数据管理和统计计算等多个领域拥有丰富经验。本文摘编自《R语言：实用数据分析和可视化技术》（原书第2版），经出版方授权发布。

22.4K2 1

CSV数据读取，性能最高多出R、Python 22倍

首先在单线程下，data.table（fread）比CSV.jl快1.6倍。而在使用多线程处理时，CSV.jl则表现得更好，是data.table速度的2倍以上。...单线程CSV.jl是没有多线程的Pandas（Python）的1.5倍，而多线程的CSV.jl可以达到11倍。字符串数据集 I 此数据集在且具有1000k行和20列，并且所有列中不存在缺失值。 ?...使用R，添加线程似乎不会导致任何性能提升。单线程CSV.jl比data.table快2.5倍，而在10个线程中，CSV.jl则大约比data.table快14倍。...价格的四个列是浮点值，并且有一个列是日期。 ? 单线程CSV.jl比从data.table中读取的R速度快约1.5倍。而多线程，CSV.jl的速度提高了约22倍！...但是，使用更多线程，Julia的速度与R一样快或稍快。宽数据集这是一个相当宽的数据集，具有1000行和20k列。数据集包含的数据值类型有：String、Int。 ?

2K6 3

R语言学习笔记之——数据处理神器data.table

R语言作为专业的统计计算语言，数据处理是其一大特色功能，事实上每一个处理任务在R语言中都有着不止一套解决方案（这通常也是初学者在入门R语言时，感觉内容太多无从下手的原因），当然这些不同方案确实存在着性能和效率的绝大差异...data.table 1、I/O性能： data.table的被推崇的重要原因就是他的IO吞吐性能在R语言诸多包中首屈一指，这里以一个1.6G多的2015年纽约自行车出行数据集为例来检验其性能到底如何，...DT[i,j,by] 如果这个过程是SQL中是由select …… from …… where …… groupby …… having 来完成的，在R的其他基础包中起码也是分批次完成的。...注意以上新建列时，如果只有一列，列名比较自由，写成字符串或者变量都可以，但是新建多列，必须严格按照左侧列名为字符串向量，右侧为列表的模式，当然你也可以使用第二种写法。...当整列和聚合的单值同时输出时，可以支持自动补齐操作。当聚合函数与data.table中的分组参数一起使用时，data.table的真正威力才逐渐显露。 mydata[,.

3.6K8 0

R语言数据框、矩阵、列表的创建、修改、导出

csv打开会报错，该知识点用于防止部分代码中错误应用csv套用tsv等#文件读写部分(文件位于R_02的Rproject中)#1.读取ex1.txt txt用read.table读，变量名不需要有""，...#ex2 列被错误当作数据而非行名，且列名的.变成了-，R语言将列名的特殊字符-转化了，该编号可能与其他数据中编号无法匹配，ex2.../则为上一级）#文件是由生成它的函数决定的，不是由后缀决定的，save为csv实际上还是一个Rdata#readr包可以实现base包中的类似功能library(data.table)#其中的fread...3.筛选test中，Species列的值为a或c的行test[test$Species %in% c("a","c"),]#注意本题至少有三个问题，第一是值a，c为字符型，要加""，第二是向量是c()不是...2倍的标准差，并写出用户使用该函数的代码。

7.9K0 0

能不能让R按行处理数据？

如果要自己寻找Stackoverflow上与R或是data.table相关的问题，可以在搜索栏输入[R] [data.table] Your question。提出问题好啦，开始上课！...首先，假设我有一个这样的数据集（暂且命名为t1）： ? 现在我想做的是对于每一行，找出非NA的值，填充到“mean.scale”这个新的变量；如果有多个非NA，那么就计算其平均值。...解题思路在解决本问题的过程中我们需要用到data.table包！...我们只要把数据按照fund_name分组，然后对每组求scale的均值。唯一需要注意的有两点。首先，别忘了mean中的na.rm = T参数，它能够让函数忽略缺失值。...(fund_name)][is.finite(mean.scale)] 提示：把所有步骤打包成一步的关键在于“:=”符号的运用。本期总结本期大猫带领大家学习了如何在R中按照行进行处理。

1.4K2 0

5个例子比较Python Pandas 和R data.table

Python和R是数据科学生态系统中的两种主要语言。它们都提供了丰富的功能选择并且能够加速和改进数据科学工作流程。...在这篇文章中，我们将比较Pandas 和data.table，这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好，我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...另一方面，data.table仅使用列名就足够了。示例3 在数据分析中使用的一个非常常见的函数是groupby函数。它允许基于一些数值度量比较分类变量中的不同值。...我们求出了房屋的平均价格，但不知道每个地区的房屋数量。这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。

3.1K3 0

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

R语言︱数据集分组大型数据集通常是高度结构化的，结构使得我们可以按不同的方式分组，有时候我们需要关注单个组的数据片断，有时需要聚合不同组内的信息，并相互比较。...可以看到，计算结果中的第一列实际上是“SELLERID.CLIENT”，我们需要把它拆分成两列并调换顺序才行。...(iris$setosa)] #按照照setosa的大小，重排Sepal.Length数据列四、dplyr与data.table data.table可是比dplyr以及python中的...data.table包的语法简洁，并且只需一行代码就可以完成很多事情。进一步地，data.table在某些情况下执行效率更高。...在使用data.table时候，需要预先布置一下环境： datadata.table(data) 如果不布置环境，很多内容用不了。

20.9K3 2

Matt Dowle 演讲节选（二）

上期回顾上次讲到 Matt 在转移到 R 阵营之后，开始思考下面那个无法在 S-PLUS 上面实现的命令，能否在 R 中实现呢？...因为任何对列的处理都必须导致数据集在内存中的复制，也即假如我们的内存是 4G，那么在使用data.frame的情况下，我们最大就只能处理 2G 的数据集！...一个更极端的例子是，加入你在 4G 内存中装下了一个 3G 的数据集，这时你想要删去其中的一列都是不可能的，因为在data.frame中，哪怕删除操作都会导致数据集的复制！...（大猫：在最新版本的 R 中，这个问题已经明显缓解，但是这时已经过去了5年多）而在data.table中，一切都是那么自然： > DF[, colToDelete := NULL] 哪怕你的数据集有...True，时间是缩短不少，但那意味着许多枯燥的输入。假设你有100列，难道你要每列的class都指定一遍？这时你就需要fread("test.csv")！不需要输入任何其他的参数，你猜要运行多久？

1.1K4 0

文件的读写20230204

⚠️注意事项：当使用row.names=1时，行名不允许重复> rod = read.csv("rod.csv",row.names = 1)Error in read.table(file = file...> soft 列没有值Error in scan(file = file, what = what, sep = sep, quote...图片图片因此可以得知，fill=T虽然可以读入文件，但是也会导致“问题文件”的读入错误，因为它的默认值是sep=" ",会把一整个空格认为也是分隔符，导致第五列的内容被错误的放入了空着的第四列。...("ex2.csv")图片图片data.table包：fread（）1）非常方便，可以准确读取一些“问题文件”，例如刚刚有缺失空列的soft.txt，最好带上参数 data.table=F,可以确保产生干净的数据框...读取这个表格文件的不同工作簿3）export() 可以把一个由多个数据框组成的列表输出为带有多个工作簿的表格文件ps：如果单个数据框导出，可以把后缀改成.csv.

1.5K11 1

data.table包使用应该注意的一些细节

因此对于不是非常巨大的文件，建议设置为1，不要使用全部核心 fread中sep是自动检测的所以在循环读入文件的过程中，就算不同文件的分隔符不同，也可以循环一次性方便的读入；还有就算后续改变了文件的分隔符... as.matrix作用于data.table时会调用as.matrix.data.table，有一个rownames参数可以指定保留为行名的列矩阵转换成data.table时可以保留列名在...as.data.table函数中同样有一个rownames参数，设置为T可以将行名保留下来作为data.table的一列不建议set和for循环一起使用虽然set可以在内存上直接改变数值，但在R...中用for循环比批量列运算慢的多，因此首选:=或者apply等在处理浮点数时会有一些准确性的问题比如用seq函数numeric类型的数值时，会存在不准确的问题，比如seq(0,1,by=0.2)...中的0.6就不等于0.6，虽然很费解，但这是因为计算机在存储浮点数时出现的一些问题。

1.5K1 0

「Workshop」第五期：使用data.table操作数据

的部分函数在使用的过程中会直接对原来的数据进行改写，为了防止原来的数据被改变，使用拷贝的文件。...(x = sum(number))] x 1: 20 添加列 := 直接在原数据上增加新列或替换旧列 > dt[name == "apple", c := 1+2] > dt[name ==...(dt)[1] TRUE > key(dt)[1] "number" "name" 可以使用索引简化计算举例1：计算name为apple所在行的number值总和 > setkey(dt, name...输出R环境中名为dt的数据框为.csv文件 foverlaps() foverlaps() 格式 foverlaps(x, y, by.x = if (!...对应y中列的名称数据的拆分和合并 melt() dcast() > reshape_dt data.table(kinds = c(rep("peach", 2), rep("grape",

3.3K5 0

PostgreSQL 教程

最后，您将学习如何管理数据库表，例如创建新表或修改现有表的结构。第 1 节. 查询数据主题描述简单查询向您展示如何从单个表中查询数据。列别名了解如何为查询中的列或表达式分配临时名称。...完全外连接使用完全连接查找一个表中在另一个表中没有匹配行的行。交叉连接生成两个或多个表中的行的笛卡尔积。自然连接根据连接表中的公共列名称，使用隐式连接条件连接两个或多个表。第 4 节....检查约束添加逻辑以基于布尔表达式检查值。唯一约束确保一列或一组列中的值在整个表中是唯一的。非空约束确保列中的值不是NULL。第 14 节....DATE 引入DATE用于存储日期值的数据类型。时间戳快速了解时间戳数据类型。间隔向您展示如何使用间隔数据类型有效地处理一段时间。 TIME 使用TIME数据类型来管理一天中的时间值。...hstore 向您介绍数据类型，它是存储在 PostgreSQL 中单个值中的一组键/值对。 JSON 说明如何使用 JSON 数据类型，并向您展示如何使用一些最重要的 JSON 运算符和函数。

5921 0

比pandas更快的库

本文讨论的内容将代码运行得更快，甚至超过采用最佳实践。我们需要使用其他数据处理库，以使程序运行得更快。不用担心，这些库都具有与pandas类似的语法，因此学习如何使用也非常容易。...当使用默认设置运行pandas代码时，大多数CPU内核都不做任何事情，只有少数在工作（大体上只有9%的CPU在工作）。使代码运行更快的一种方法是同时使用多个CPU核，即多处理。...三个比pandas更快的数据分析库简要介绍以下三个能够快速运行的Python库： 1.polars：一个使用Apache Arrow列格式内存模型在Rust编程语言中实现的快速数据框架库。...2.datatable：与R的data.table库密切相关。 3.modin：使用所有可用的CPU核来运行pandas，基本上是pandas的替代品。...3.Datatable在进行简单的列计算时并不差，而且速度非常快。从对更大数据集的测试中，还可以看到，在大多数测试中，polars的性能始终优于所有其他库。

1.5K3 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

SQL中如何将一列中的值显示出字符指定位置与指定长度。

如何使用Excel将某几列有值的标题显示到新列中

问与答62：如何按指定个数在Excel中获得一列数据的所有可能组合？

「R」数据操作（三）：高效的data.table

R语言数据分析利器data.table包 —— 数据框结构处理精讲

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

R语言基因组数据分析可能会用到的data.table函数整理

手把手教你用R语言读取CSV文件

CSV数据读取，性能最高多出R、Python 22倍

R语言学习笔记之——数据处理神器data.table

R语言数据框、矩阵、列表的创建、修改、导出

能不能让R按行处理数据？

5个例子比较Python Pandas 和R data.table

R语言︱数据集分组、筛选(plit – apply – combine模式、dplyr、data.table)

Matt Dowle 演讲节选（二）

文件的读写20230204

data.table包使用应该注意的一些细节

「Workshop」第五期：使用data.table操作数据

PostgreSQL 教程

比pandas更快的库

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐