我目前正在处理一个非常大的关于“着陆”和“起飞”的数据帧(大约2M行)。有一些信息,比如手术发生的时间,在哪个机场,它的目的地等等。 我想要做的是将整个DF过滤成一个新的DF,只考虑“航班”,因此大约一半的条目匹配每个起飞与其相应的降落基于始发机场和目的地机场的机场代码。 我所做的是可行的,但考虑到它需要大约200小时才能完成的DF是如此之大, Loop on all rows of DF checking for some df$Operation=="takeoff"{
Loop on all rows, below the row found before,
(1)我有一个大表在R中读取,有超过10000的行和10列。
(2)表的第3栏包含医院的名称。其中一些是重复的,甚至更多。
(3)我有一个医院名称的向量,例如,其中10个还需要进一步研究。
(4)您是否介意教我如何使用步骤3中列出的名称提取step1中的所有行?
下面是我的输入文件的一个简短示例;
Patients Treatment Hospital Response
1 A YYY Good
2 B YYY Dead
3 A ZZZ Good
4 A
我正在尝试从审核日志中按登录id列出失败尝试的次数。假设审计日志如下:
User ID | LoginStatus | LoginAttempt
----------+--------------+-----------------
2ABQM4 | F | 1
2ABQM4 | F | 2
1BIDU8 | F | 1
1YUM8T | F | 1
2MP32A | F | 1
2MP32A | F | 2
2ABQM4
背景问题:
假设我们有一个数据集,如:
ID DRIVE_NUM FLAG
1 A PASS
2 A FAIL
3 A PASS
-----------------
4 B PASS
5 B PASS
6 B PASS
-----------------
7 C PASS
8 C FAIL
9 C FAIL
我希望通过以下规则聚合DRIVE_NUM设置的数据:
对于特定的DRIVE_NUM组,
如果在DRIVE_NUM组中有任何失败
我正在尝试用家庭信息过滤data.frame。看起来是这样的:
+--------+-------+---------+
| name | dad | mom |
+--------+-------+---------+
| john | bert | ernie |
| quincy | adam | eve |
| anna | david | goliath |
| daniel | bert | ernie |
| sandra | adam | linda |
+--------+-------+---------
我在R中有一个数据(例如x):
> x
Height Weight Gender
5 60 m
5 70 m
6 80 m
4 90 m
4 60 m
5 70 f
5 80 f
6 60 f
4 90 f
4 60 f
我需要一个R代码,它将产生一个新的数据,比如y,它按性别取X的子集,每种性别的前三行(1:3)给出结果如下。
>y
Height Weight Gender
5 60 m
5 70
如果同一两个第一列位于另一个dataframe中,那么在r中删除dataframe中的行的最快函数是什么。例如,如果数据框架A如下所示(包含更多的信息列):
NAME SURENAME
John Beer
Rose Pitt
Bob Kin
Charile Kind
Smith Red
Brad Tea
Kale Joe
Ana Bread
Lauren Old
Mike Karl
B如下:
NAME SURENAME
Rose Pit
嗨,我是新的R和想要一些帮助优化代码。
我有一个dataframe,我想设置一个bool值,如果它的上一行中的值有更改的话。
下面的示例似乎有效,但是是否有更好/更易读的方法来编写这段代码?
也许是因为我对R不熟悉,但是我觉得df,语法有点难理解。
# df is a dataframe with a c, which contains an integer value
df$changed = FALSE
c = 0
for ( i in 1:nrow(df)){
if (df[i,]$c != c){
c = df[i,]$c
df[i,]$changed = TRU
Stata有一个非常好的命令egen,它可以轻松地计算一组观察的统计数据。例如,可以计算每个组的最大值、平均值和最小值,并将它们作为变量添加到详细的数据集中。Stata命令是一行代码:
by group : egen max = max(x)
我从未在R.summarise包中找到相同的命令,这使得计算每个组的统计信息变得很容易,但是接下来我必须运行一个循环来将统计数据与每个观察相关联:
library("dplyr")
N <- 1000
tf <- data.frame(group = sample(1:100, size = N, replace = TR
我熟悉R中的一些拆分-应用-组合函数,比如ddply,但我不知道如何拆分数据帧,修改每个子集中的单个变量,然后重组子集。我可以手动完成,但肯定有更好的方法。
在我的例子中,我试图在一个组中洗牌单个变量(但没有其他变量)。这是一个排列分析,所以我做了很多次,因此希望加快速度。
allS <- split(all, f=all$cp)
for(j in 1:length(allS)){
allS[[j]]$party <- sample(x=allS[[j]]$party)
}
tmpAll <- rbind.fill(allS)
样本数据框架:
all <- da
如果我的数据看起来像这样:
car.model number of faults
Tesla X 1
Tesla X 4
Tesla X 0
Range Rover 0
Range Rover 7
Range Rover 1
Fiat 500 1
Fiat 500 1
Fiat 500 2
我想要一个新的列max.number.faults,它记录每个模型的最高故障:
car.model number of faults max
我有一个R数据框架,格式如下:
column1 column2
NA NA
1 A
1 A
1 A
NA NA
NA NA
2 B
2 B
NA NA
NA NA
3 A
3 A
3 A
df = structure(list(column1 = c(NA, 1L, 1L, 1L, NA, NA, 2L, 2L, NA,
NA, 3L, 3L, 3L), colu
我有以下数据:
State Name Population
1 NY New York 1
2 NJ New Jersey 2
3 CA California 1
4 RI Rhode Island 1
5 NY New York 1
我想使用R来总结状态列和name列的所有唯一组合的人口列。因此,最终结果将是:
State Name Population
1 NJ New Jersey
我和dplyr的semi_join有问题。理想情况下,我希望在dfA上与dfB进行半连接。dfA有重复的值,dfB也有。我想从dfA中提取所有与dfB匹配的值,甚至是dfA中的重复值。
dfA dfB >> dfC
x y z x g x y z
1 r 5 1 lkm 1 r 5
1 b 4 1 pok 1
据我所知,case_when()是ifelse()的通用版本。
但是,我不明白如何在dplyr::mutate()函数中使用这个函数。它以前使用github的上一个版本的dplyr,但由于我回到CRAN版本(0.5),它不再工作了。有人有线索吗?
以下是我的可复制的例子:
library(devtools)
library(tibble)
library(dplyr)
#>
#> Attaching package: 'dplyr'
#> The following objects are masked from 'package:stats'
我正在使用R,有以下问题:假设我有一个数据集,如下所示:
subject color
1 red
1 blue
1 green
2 orange
2 red
2 yellow
我想用分号合并具有相同主题和不同颜色的数据集,例如:
subject color
1 red;blue;green
2 orange;red;yellow
真实的数据集非常大,那么我如何在R中做到这一点呢?