开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

一种在R data.table中给两个测试打分的有效方法

在R data.table中给两个测试打分的有效方法是使用data.table包的:=运算符来创建新的列，并使用条件语句进行打分。下面是一个完善且全面的答案：

在R data.table中，可以使用:=运算符来创建新的列，并使用条件语句进行打分。首先，我们需要创建一个data.table对象，其中包含两个测试的数据和相应的评分标准。假设我们有一个名为dt的data.table对象，其中包含两个测试的得分数据列test1和test2，我们可以使用以下代码来给这两个测试打分：

library(data.table)

# 创建一个包含测试得分数据的data.table对象
dt <- data.table(test1 = c(80, 90, 70),
                 test2 = c(85, 95, 75))

# 使用:=运算符创建新的列，并使用条件语句进行打分
dt[, test1_score := ifelse(test1 >= 90, "A", ifelse(test1 >= 80, "B", "C"))]
dt[, test2_score := ifelse(test2 >= 90, "A", ifelse(test2 >= 80, "B", "C"))]

上述代码中，我们使用了嵌套的ifelse语句来根据不同的条件给测试打分。如果test1得分大于等于90，则将其评为"A"，如果得分大于等于80，则评为"B"，否则评为"C"。同样的方法也适用于test2得分。

这样，我们就在data.table中成功地给两个测试打分，并将结果保存在新创建的列test1_score和test2_score中。

对于R data.table中给两个测试打分的有效方法，腾讯云提供了一系列适用于数据处理和分析的云产品，例如云数据库TDSQL、云原生数据库TencentDB for TDSQL、云服务器CVM等。这些产品可以帮助用户在云端高效地存储、处理和分析数据。您可以通过访问腾讯云官方网站（https://cloud.tencent.com/）了解更多关于这些产品的详细信息和使用指南。

相关搜索:一种在JSON文件中实现搜索操作的有效方法在Dart中通过套接字传输文件的一种更有效的方法？在data.table中按组计算分数的有效方法在MATLAB中组合两个结构有哪些有效的方法？在R中做数据透视表的另一种方法在R中同时移动矩阵的特定列和行的有效方法在R中实现这一点的有效方法是什么？在R中查找整数中最低有效位的最快/最有效的方法是什么？在R中粘贴字符串最有效的方法是什么？在R中获取多个列的月平均值的有效方法

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

从一件数据清洗的小事说起

” 本期“大猫的R语言公众号”由“村长”供稿。村长，数据科学、指弹吉他及录音工程爱好者，浙大金融学博士在读，在data.table包和MongoDB的使用上有较多经验。...问题：从一段json清晰代码说起笔者某一日在R语言中文社区某一群里面发现了水友提出的一个问题，处理一个比较奇葩的数据清洗问题，先来看数据结构： ?...其实这一期这么扯淡的讲这么多事情，只是为了说明一点，data.table真的有很好的性能，尤其在处理海量数据方面（在分组特别多的时候，相比dplyr和pandas有2x~10x的提升，来自官方文档）。...编程的效率最重要的来自于框架，框架如果一开始就不那么有效率，再怎么改进都是有限的。那么data.table的框架优秀在哪儿呢？ data.table之所以比dplyr要快，在于两者设计的哲学不同。...关于如何学习data.table包，大家可以查看本公众号前几期的文章。R语言的data.table包是一个被大多数人远远低估的存在，在这里想强烈推荐给大家！！

6751 0

肿瘤微环境看基质和免疫细胞就太泛了

我们在前面使用3个教程来说明肿瘤微环境,，是一个目前比较流行的方法 estimate看基质和免疫细胞比例，来源于2013数据挖掘文章，作者就整理了两个基因集来根据表达量矩阵使用estimate方法去量化肿瘤样品里面的基质细胞和免疫细胞的比例...目录是： estimate的两个打分值本质上就是两个基因集的ssGSEA分析针对TCGA数据库全部的癌症的表达量矩阵批量运行estimate 不同癌症内部按照estimate的两个打分值高低分组看蛋白编码基因表达量差异...实际上，这个方法还是过于粗糙了，肿瘤微环境的复杂程度，远不止基质和免疫细胞简单的归类。...，这个时候CIBERSORT就一马当先了，CIBERSORT是2015年在Nature Methods发表的一个方法，工具在：(http://cibersort.stanford.edu).，早在2016...PLOS Medicine，作者研究团队利用CIBERSORT算法推断解析了11,000个乳腺癌(组织转录组芯片或是RNAseq，包括GEO和TCGA)中的22种免疫细胞的占比。

1K5 0

R︱高效数据操作——data.table包（实战心得、dplyr对比、key灵活用法、数据合并）

而且，.()格式只在data.table格式下有效，不然会报错。...data.table中，还有一个比较特立独行的函数：使用:=引用来添加或更新一列（参考：R语言data.table速查手册） DT[, c("V1","V2") := list(round(exp(V1...在筛选列变量的数据，也可以与%in%集合运算联用（集合运算见博客：R语言︱集合运算）。...—————————————————————— 实战一：在data.table如何选中列，如何循环提取、操作data.table中的列？...2016-11-28补充：留言区大神给了一个比较好的选中列的方式，其中主要就是对with的使用： data.table取列时，可以用data[,1,with=FALSE]取data的第一列

7.9K4 3

这两个疾病的患者的PBMC跟正常人的在单细胞转录组水平差异很大吗

众所周知，2型糖尿病是一种复杂的代谢紊乱，会引起各种并发症，包括牙周炎。...所以研究者们就选取了这两个疾病（ Type 2 diabetes mellitus (DM)和 periodontitis (PD) ）的患者的PBMC公共数据集做研究： GSE165816 includes...如下所示：各种差异分析和富集分析高级分析主要是针对具体的某个细胞亚群看功能变化，比如这个文章就是针对 CD8T and NK cells 打分：The cytotoxicity, exhaustion...是标准的10x数据集，所以很容易导入到R里面进行分析 ###### step1:导入数据 ###### samples=list.files('GSE164241_RAW/outputs/')...这两个疾病的患者的PBMC跟正常人的在单细胞转录组水平差异很大吗？有必要这样做吗？现在呢，基本上每个疾病都是有公开的单细胞数据集，而且很多疾病都是多个数据集，是不是可以做各种各样的联合分析了呢？

2641 0

5个例子比较Python Pandas 和R data.table

在这篇文章中，我们将比较Pandas 和data.table，这两个库是Python和R最长用的数据分析包。我们不会说那个一个更好，我们这里的重点是演示这两个库如何为数据处理提供高效和灵活的方法。...这是特征工程过程中常见的操作。这两个库都提供了完成此任务的简单方法。...这两个库都允许在一个操作中应用多个聚合。我们还可以按升序或降序对结果进行排序。...data.table中使用减号获得降序结果。示例5 在最后一个示例中，我们将看到如何更改列名。例如，我们可以更改类型和距离列的名称。...总结我们比较了pandas和data.table在数据分析操作过程中常见的5个示例。这两个库都提供了简单有效的方法来完成这些任务。在我看来，data.table比pandas简单一点。

3K3 0

DSTC10开放领域对话评估比赛冠军方法总结

缺乏有效的指标集成方法现有方法大多倾向于为每种评估维度设计一种评估指标，这种思路面对越来越多的评估维度显得力不从心（考虑下比赛测试集共包含37种不同的评估维度）。...一般当max（）在1/3到1/2之间时集成效果最好，这是计算的一种简单有效手段。...实验性能如图7所示：图7 测试集上不同评估指标的消融实验（%）相关性指标RM和主题一致性指标TCM都使用了对话中的Context和Response信息，因此在实验中同时去除这两个指标，观察对性能的影响...6 总结在本次比赛中，我们总结了开放领域对话自动评估存在的两个主要问题，即评估指标不够全面和缺乏有效的指标集成方法。...虽然本文方法在DSTC10比赛中取得了较好的成绩，但后续我们将继续探索其他更有效的评估指标和指标集成方法。

7404 0

R数据框如何取交集

前面给大家介绍过了 ☞R批量预测miRNA和靶基因之间的调控关系-ENCORI篇 ☞R批量预测miRNA和靶基因之间的调控关系-TargetScan篇有小伙伴拿自己的数据试了一下，反馈预测结果太多了。...我们知道一般在R里，对向量取交集，直接用intersect函数就可以了。...下面给大家介绍三种对R数据框取交集的方法方法一、我们将各列的信息合并成一个字符串，然后取交集 #将各列的信息用_连接起来 combine1=apply(df1,1,function(x) paste...all_equal(result1,result2) #[1] TRUE 方法三、利用data.table包里的fintersect函数 #加载data.table包 library(data.table...(file="intersect3.txt",result3,quote=F,row.names = F,sep="\t") #查看跟第一种方法得到的结果是否一致 all_equal(result1,result3

1.7K2 0

MILABOT：基于深度强化学习打造聊天机器人

模型选取策略在多种响应模型生成候选响应集后，DM使用策略模型确定选择策略，从候选集中确定将返回给用户的响应。...表1 策略在AMT上打分均值和标准偏差的评估情况，置信区间为90% 实验评估团队使用A/B测试，检验DM在选取策略模型上的有效性。...测试在Amazon竞赛环境中开展，当Alexa用户与系统对话时，会自动指定一个随机策略，随后记录对话内容和打分情况。...从测试结果可见，离策略和Q-learning表现出比其它策略更优的结果。从平均情况来看，Q-leaning给出的打分最好。总而言之，实验表明了组合方法的有效性。...其中，团队提出了一种新颖的强化学习方法。通过使用A/B测试与已有强化学习方法的对比，在真实Alexa用户数据上取得了更优的对话效果。论文对进一步工作提出了两个方向。

7553 0

开发ETL为什么很多人用R不用Python

对比python中的datatable、pandas、dask、cuDF、modin，R中data.table以及spark、clickhouse 3....探讨R中的ETL体系 ETL在数据工作中起着至关重要的作用，主要用途有两个：（1）数据生产（2）为探索性数据分析与数据建模服务。...而日常数据生产中，有时会牵扯到模型计算，一般以R、python为主，且1~100G左右的数据是常态。基于此，于是想对比下R、Python中ETL的效率。...服务器为32G、8核，拉取Python3.6、R3.6.2两个docker分别测试。...目前本人工作中负责一个项目的数据生产，大致流程如下。首先，用presto从hive中读取数据，从ADB读取数据，数据量在5G左右。

1.8K3 0

Matt Dowle 演讲节选（二）

上期回顾上次讲到 Matt 在转移到 R 阵营之后，开始思考下面那个无法在 S-PLUS 上面实现的命令，能否在 R 中实现呢？...> DF[2:3, sum(B)] 注：在 S-PLUS 中，以上命令必须要用一种非常不直观的方式写出来，如下: > sum(DF[2:3, "B"]) 2004：data.table诞生 2004...但是第一种方法用了 591 s，第二种方法（assignment by reference）只用了 1 s。...这里的关键在于，在第一种方法中，每为新的一行赋值，data.table就要重新复制一遍DT，也就是说，第一种方法的运行过程中，DF被复制了1000遍！...而在第二种方法中，由于采用了 assignment by reference，data.table仅对内存中v1所在的地址进行修改，其他地方则不变！事实上，DF 在第二种方法中一遍都没有被复制！

1.1K4 0

用交叉验证改善模型的预测表现－着重k重交叉验证

在机器学习中，对偏差和方差的权衡是机器学习理论着重解决的问题。什么是交叉验证？交叉验证意味着需要保留一个样本数据集，不用来训练模型。在最终完成模型前，用这个数据集验证模型。...－－测试集用剩余部分训练模型。－－训练集用保留的数据集（测试集）验证模型。这样做有助于了解模型的有效性。如果当前的模型在此数据集也表现良好，那就带着你的模型继续前进吧！它棒极了！...K 层交叉验证 (K- fold cross validation) 从以上两个验证方法中，我们学到了：应该使用较大比例的数据集来训练模型，否则会导致失败，最终得到偏误很大的模型。...是否有一种方法可以兼顾这三个方面？答案是肯定的！这种方法就是“ K 层交叉验证”这种方法简单易行。简要步骤如下：把整个数据集随机分成 K“层” 用其中 K-1 层训练模型，然后用第K层验证。...我们应该试图在偏误和变化程度间找到一种平衡。降低变化程度、控制偏误可以达到这个目的。这样会得到更好的预测模型。进行这个取舍，通常会得出复杂程度较低的预测模型。

1.5K6 0

「r」dplyr 里的 join 与 base 里的 merge 存在差异

构造数据集下面是一个可重复的例子，构造两个数据集，一个是基于 data.frame 的列表，另一个是就要 data.table 的列表： x <- list( a = data.frame(r1...")= 从存储的信息来看，这两个列表是没有任何差异的。...相同的数据，不同的操作函数存在差异在进行连接操作时，我们会发现 dplyr 的结果会报错！...本质上是 data.table 体格的泛型函数不支持类似基础包中的操作。如何编写代码支持对上述数据集的连接操作？...一般工作情况下，不同的数据子集都存在可以连接的列，所以无论上述哪种方法都可以胜任工作。

1.6K3 0

For循环与向量化（Vectorization）

这样是否真的有效率？除此之外，能否有其他的思路？ ” 解决方法 For循环首先我们用R语言最底层的For循环进行函数的编写。...向量作为最基本的数据结构，其在进行底层编写的时候，进行了很大程度的优化设计。向量有时候作为一种基本的编写思路，是具有很高效率的。有鉴于此，我们通过R语言最底层的向量思维进行函数编写。...关于For循环和Vectorization的深入思考 Vectorization在更多包的拓展现在有很多的R包会对底层的一些函数进行优化，也即是对向量化的进一步优化，我们选择效率较为强大的data.table...有鉴于此，C++可作为一种比较好的替代手段。R语言提供了一个很好的C++语言的接口，Rcpp包能够比较方便调用C++的语句进行操作。...通过运行结果可以发现，Rcpp调用的底层循环略优于data.table的向量化，运行时间在0.03s左右。

1.8K3 0

CSV数据读取，性能最高多出R、Python 22倍

使用R，添加线程似乎不会导致任何性能提升。单线程CSV.jl比data.table快2.5倍，而在10个线程中，CSV.jl则大约比data.table快14倍。...价格的四个列是浮点值，并且有一个列是日期。 ? 单线程CSV.jl比从data.table中读取的R速度快约1.5倍。而多线程，CSV.jl的速度提高了约22倍！...单线程中，CSV.jl比R快2倍，而使用10个线程则快了10倍。按揭贷款风险数据集从Kaggle取得的按揭贷款风险数据集是一种混合型的数据集，具有356k行和2190列。...可以看出，在所有八个数据集中，Julia的CSV.jl总是比Pandas快，并且在多线程的情况下，它与R的data.table互有竞争。...在Julia，Python和R的测试中，引发了网友们更多关于“技术更新”的热烈讨论。

2K6 3

. | FFLOM：一种基于流的从片段到先导化合物优化的自回归模型

在ZINC、CASF和PDBbind等多个测试集上的评估显示，FFLOM生成的分子在有效性、唯一性、新颖性和重现率指标上均表现良好；在片段连接、PROTAC设计、R基团生长和R基团优化四个实际应用案例中...如图2所示，在linker设计任务中，时刻子图的初始化状态为两个给定的片段，新原子的潜在节点在时刻从14维的标准正态分布中进行采样和逆运算，每一维代表一种原子类型。...另外，作者在CASF(≥5)、PDBbind(≥5)测试集上进行了R基团设计任务的基准测试，并与DeLinker和DEVELOP两个模型进行了比较。...需要注意的是，仅靠单一工具对接打分结果不一定能够获得分子的实际活性，但该结果一定程度上展示了FFLOM在R基团优化实际场景中的潜在应用。...总结作者提出了一种新颖的基于流的自回归模型FFLOM，该模型提供灵活的linker和R基团生成方法（使用者可自定义片段的范围和长度），在多种片段到先导物的优化场景中均可应用。

3092 0

R语言与python对数据框的操作(对比笔记)

这篇主要比较R语言的data.talbe和python的pandas操作数据框的形式，学习两者的异同点，加深理解两者的使用方法。...1. data.table VS pandas 这里使用R语言的data.tablet包和python的pandas进行对比....使用R语言, 通过data.table创建数据框. library(data.table) set.seed(123) DT <- data.table(V1=c(1,2),V2=c("A","B","...如果使用多个列名，要用[] df[["V1","V2"]] # 用两个[][] ? 效果同上。 df.iloc[:,0:2] ?...3.4 pandas保存文件如果是R的思维： write.csv(object, "file.csv") 但是pandas的风格是 object.to_csv("file.csv") 正确有效的代码：

2.9K2 0

泛癌水平的批量生存分析

肿瘤免疫微环境我们讲了很多了，目录是： estimate的两个打分值本质上就是两个基因集的ssGSEA分析针对TCGA数据库全部的癌症的表达量矩阵批量运行estimate 不同癌症内部按照estimate...的两个打分值高低分组看蛋白编码基因表达量差异使用CIBERSORT算法推断全部tcga样品的免疫细胞比例都是依据肿瘤病人的转录组测序表达量矩阵进行的分析，也有几百篇类似的数据挖掘文章了，它们总是喜欢落脚到...然后研究者拿这些基因集去TCGA数据库里面检验它们是否在各个癌症里面可以统计学显著的区分生存，而且判定它们是保护因子还是风险因子。...也就是说作者使用的是gsea方法来判定各个基因集在各个癌症的 enrichment scores，然后cox分析就是依据 enrichment scores啦，不过呢，作者并没有把 enrichment...1 TCGA.OR.A5JG.01A.11R.A29S.07 ACC 0.000000e+00 0.04852871 2 TCGA.OR.A5LG.01A.11R.A29S.07

1.4K2 1

R语言数据分析利器data.table包 —— 数据框结构处理精讲

版权声明：本文为博主原创文章，转载请注明出处 R语言data.table包是自带包data.frame的升级版，用于数据框格式数据的处理，最大的特点快。...包括两个方面，一方面是写的快，代码简洁，只要一行命令就可以完成诸多任务，另一方面是处理快，内部处理的步骤进行了程序上的优化，使用多线程，甚至很多函数是使用C写的，大大加快数据运行速度。...可见它是属于data.table和data.frame类，并且取列，维数，都可以采用data.frame的方法。...将一个R对象转化为data.table，R可以时矢量，列表，data.frame等，keep.rownames决定是否保留行名或者列表名，默认FALSE,如果TRUE,将行名存在"rn"行中，keep.rownames...前面三个选项都是用新的特定C代码写的，较快 buffMB,每个核心给的缓冲大小，在1到1024之间，默认80MB nThread,用的核心数。

5.7K2 0

《高效R语言编程》5-高效输入输出

，可以使用readRDS()与saveRDS()函数导入与导出，是一种速度与空间存储都什么高效的格式。...：1）基础R的read.csv()，2）fread() 里data.table方法3）较新的readr包里read_csv()函数。...对于小于1M的数据，read.csv()比read_csv()要快，然而fread()比两个都快，如果是更大的数据，read_csv()和data.table比read.csv()快5倍左右。...总的来说，三者在读入数据的差异超过了代码执行的时间，与基础R相比，其他两个的速度提升是一定程度的牺牲健壮性为代价的。...在基础R中stringAsFactors=TRUE时才会将字符不转化为因子，而fread()和read_csv()函数默认返回字符型。

1.5K2 0

【测评】提高R运行效率的若干方法

首先，我们看看最花费时间的这段函数：第一招：用apply函数代替For循环其实我们知道在R里面最能提升效率的一个方法就是少用For循环，多用apply，因为R是面向数组的语言，apply面向数组遍历...第三招：利用C语言脚本执行函数 Hadley大神最推崇的方法是把函数用C/C++语言重写之后，在R里面调用执行。...具体方法是先用C语言写好函数脚本，比如保存为myfunction.cpp，然后在R里面加载Rcpp包调用即可。...为了单纯验证wCorr和cor.test的执行效率，我单独把两个函数拿出来只做计算用，因为这样不涉及data.frame操作所耗时间，可比性更强一点，代码如下，首先是R base里cor.test函数的运行结果...好了，通过以上的实测比较，我们了解到在R里面解决一个问题可以有很多不同的方法和策略，不同的方式结果可能结果相同但效率却千差万别，或许这就是R语言让新手容易感到困惑的地方，一旦经历一个学习曲线之后，这也是

1.2K1 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭