我有一个包含2列的数据帧:列1是ID,列2是与每个ID关联的值(总共59行)。我假设我可以从第1列随机采样并将关联值保留在第2列的唯一方法是对行进行采样。我需要随机采样50 x 1行、50 x 2行、50 x 3行、50 x 4行等等,直到59行。理想情况下,每个样本集输出为一个数据帧。因此,我最终得到了59组随机采样的数据。本质上,这与创建数据
我有一个180,000 x 400的数据帧,其中的行对应于用户,但每个用户正好有两行。我希望对数据进行子集,以便只保留每个用户的最新行(即每个id的date值最高的行)。我第一次尝试使用which()循环ids和sapply()中的ifelse()语句,这太慢了(我相信是O(n^2))。然后,我尝试按id对df进行排序,然后以2为增量循环遍历,并比较相邻的日期,但这也很慢(我猜是因为R</e