文章/答案/技术大牛

发布

快速获取大data.table中每个指标取值最大的行

基础概念

data.table 是 R 语言中的一种高效的数据处理包，特别适用于处理大规模数据集。它提供了快速的数据操作功能，包括数据过滤、聚合、连接等。

类型

data.table 主要有以下几种类型：

基本数据表：存储结构化数据。
宽格式数据表：每一行代表一个观测对象，每一列代表一个变量。
长格式数据表：每一行代表一个观测值，变量信息存储在单独的列中。

应用场景

data.table 适用于各种需要高效处理大规模数据的场景，例如：

金融数据分析：处理交易数据、市场数据等。
生物信息学：处理基因组数据、蛋白质组数据等。
网络数据分析：处理日志数据、用户行为数据等。

获取每个指标取值最大的行

假设我们有一个 data.table 对象 dt，其中包含多个指标（列），我们希望获取每个指标取值最大的行。

library(data.table)

# 示例数据
dt <- data.table(
  ID = c(1, 2, 3, 4, 5),
  Metric1 = c(10, 20, 30, 40, 50),
  Metric2 = c(50, 40, 30, 20, 10)
)

# 获取每个指标取值最大的行
max_rows <- dt[, lapply(.SD, function(x) x == max(x))][, .SD[which.max(.SD)]]

print(max_rows)

解释

lapply(.SD, function(x) x == max(x))：对每个指标列应用函数，返回一个逻辑矩阵，表示每个元素是否为该列的最大值。
[ , .SD[which.max(.SD)]]：对逻辑矩阵应用函数，返回每个指标列取值最大的行。

参考链接

data.table 官方文档

通过上述方法，你可以快速获取 data.table 中每个指标取值最大的行。如果遇到任何问题，可以参考官方文档或进一步调试代码。

快速获取大data.table中每个指标取值最大的行

、、

我得到了一个很大的data.table，例如 n <- 79999999: 268678 e 8371.433 10000000: 730810 i 10150.311 我想创建一个data.table，对于指示器id_1的每个值只有一行</e

浏览 26提问于2019-07-04得票数 0

回答已采纳

2回答

数据表中的最大行数

、

我在一个data.table中有一个包含8,000,000行和100列的数据集，其中每列都是一个计数。我需要找出每一行中的最大计数，以及这个最大计数在哪一列。我可以使用下面的命令快速获得每行中哪一列的值最大但是尝试使用以下命令获取实际最大值 dt

浏览 0提问于2015-02-13得票数 9

回答已采纳

2回答

根据包含列名的变量从不同的列中选择值

、

我有一个这样的data.table：1 4 55 col1 334 35 col2我想填充另一个列matched_value，它包含来自new列中给出的相应列名的值：3 34 35 col2 34

浏览 3提问于2015-10-23得票数 12

回答已采纳

1回答

具有条件的.N在data.table中的应用

、、

我试图用条件数多个.N来表示data.tableSD = data.table(x=c(1,1,1,1,2,2,2,2), y=c("a", "a", "b", "b","a", "a", "b", "b"), z= c("x", "x", "y","

浏览 4提问于2020-10-13得票数 1

回答已采纳

3回答

检查两个指标是否相同

、、、

我得到了一个大的数据表，它有两个指标：ind1和ind2，可能有重复。例如。set.seed(1) ind2 <- c("a","b","c")[ind1] 现在我想检查一下，这两个指标是否以相同的方式对数据分组，即两行具有相同

浏览 0提问于2019-07-16得票数 1

回答已采纳

1回答

在使用data.table包时，我有点不确定什么时候需要setkey()。例如，当使用带有by选项的:=运算符时，即使我没有设置关键点，事情似乎仍然非常快。如果在使用by调用:=之前不是必需的，那么data.table包怎么会这么快，因为它可能必须通过执行顺序搜索而不是二进制搜索来做与标准data.frame R中的apply相同的事情，因为它不知道我的data.table是否真的是通过by的参数进行排序的<

浏览 0提问于2012-07-21得票数 18

回答已采纳

2回答

使用每个实例的实例指标进行aws Sagemaker自动缩放

、、、

我正在尝试使用实例指标(CPUUtilization、MemoryUtilization或DiskUtilization)作为sagemaker端点自动缩放的指标。这些是这里定义的预定义指标：当前运行的实例数为5，则CPUUtilization的取值范围为0到500%

浏览 1提问于2019-12-16得票数 1

4回答

R group by key获取多列的最大值

、

我想做这样的事情： a b c2: 1 2 14: 2 1 16: 2 3 38: 3 2 1 如果键是列a，我希望每个唯一的a返回具有最大b的行，如果存在多个唯一的最大b，则获取具有最大c的行</e

浏览 1提问于2018-03-08得票数 3

3回答

R:合并重复的意见？

、

我有一个大的数据框架，大约有50万个观察(由“ID”标识)和150+变量。有些观察只出现一次，而另一些则出现多次(超过10次)。我想“折叠”这些多个观察，以便每个唯一ID只有一行，并且连接列2:150中的所有信息。我不需要对这些观察结果进行任何计算，只需要快速地咀嚼一下。我试过：还包括：dt = data.table</

浏览 6提问于2017-05-04得票数 0

回答已采纳

3回答

慢速group_by()和case_when()函数的data.table替代

、、

在我的数据中，我有客户i，订单日期和一个指示器，如果一个订单包含一种类型的产品。我想给每个客户一个指标，如果他的第一个订单包含这种类型的产品。但是因为我的数据非常大，所以我不能使用group_by和case_when，因为它太慢了。我想我可以通过使用data.table来加快速度。你能给我指个解决方案吗？到现在为止我还没有和data.table有过任何联系。

浏览 27提问于2019-03-13得票数 1

回答已采纳

1回答

展开数据表，添加新行并按组替换NA值

、

我尝试基于列(在下面的示例Month中)展开数据表，并按组填充空值(Group)。以下面的dt为例； set.seed(0) dt<-data.table(ID=c(1:10),Month=sample(1:10,replace = F),Group=c("A","B","C","AGroup都有10行，这样每一行的Month列的值从1到10。其余的列(Income、Tax、Birth)应该根据

浏览 7提问于2020-06-15得票数 0

回答已采纳

、

如何根据data.table中的行删除data.table中的行？可复制示例：library(data.table) DT <- data.table(Subject=c("A","A","B","B"), Test=c), Date=as.Date(c("

浏览 5提问于2022-09-08得票数 -1

1回答

data.table:对以列为输入的大型data.table执行高效的逐行操作。

、、、

我有一个非常大的data.table，它有1.6x10^8行，我想在exposure列和exposure.before.index列之间执行逐行操作，如下面的示例所示。我创建了TI列(即治疗强化)，它是一个指示当前药物/药物( exposure )上是否存在非ID的指标，与每个ID的第一行exposure.before.index上的任何药物不同。library(data.table) D

浏览 3提问于2020-04-06得票数 2

回答已采纳

2回答

使用data.table的fread BY GROUP从CSV读入行

、、、

我有一个包含数百万行的非常大的CSV文件，它是来自多个源的组合数据集。我有一个字符列/变量来指示行/观察值的来源，并且我希望使用data.table的fread从每个组中读入行的子集。现在，我尝试读取20,000行来测试我的代码，但是前几百万行都来自一个源，所以我不能从多个源获取行。有没有办法从每个<

浏览 51提问于2021-11-18得票数 1

1回答

对满足所有可能条件的条件的所有值求和

、

我有一个如下所示的data.table： colour t

浏览 0提问于2012-08-13得票数 3

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

快速获取大data.table中每个指标取值最大的行

基础概念

相关优势

类型

应用场景

获取每个指标取值最大的行

解释

参考链接

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐