我有一个数据框架,其中包含人员的id和他们来自哪里以及其他列。
id Country x
1 usa x1
2 uk x2
3 usa x3
4 che x4
和另一个包含国家代码及其收入分类的数据帧
Country income
usa upper middle
uk high
che low
我想在第一个dataframe中创建一个新列,列出每个人的国家分类,这样我就拥有:
id Country x CountryIncome
1 usa x1 upper middle
2 uk x2 hig
我想在每一组中选出最年轻的人,并按性别进行分类。
这是我的初步数据
data1
ID Age Gender Group
1 A01 25 m a
2 A02 35 f b
3 B03 45 m b
4 C99 50 m b
5 F05 60 f a
6 X05 65 f a
我想要这个
Gender Group Age ID
m a 25 A01
f a 60 F05
m
我想要创建一个2个数据框架从‘逮捕’,第一个只包括变量与数值,另一个只包括分类变量。例如:
X <- data.frame(Arrests)
X
released colour year age sex employed citizen checks
1 Yes White 2002 21 Male Yes Yes 3
2 No Black 1999 17 Male Yes Yes 3
3 Yes White 2000 24 Male
我没有在R中使用函数的经验,我正在尝试构建一个通过目标变量计算平均值的函数(在我的示例中是: funded_final)。
我的数据:
residential_status funded_final
Living with parents 0
Rent 0
Rent 0
Own 1
Own 0
Own 0
Rent 0
Rent 0
Rent 0
L
下面是几行我正在使用的测试数据。我希望计算ICD10Code列中所有字符的频率,这些字符由列分隔。从下面的代码段中,我使用了group_by,因为每个"PatientId“值在该列中都有重复值,但在其他列中有唯一值。如何计算所有字符值的频率?
PatientId ReferralSource NextAppt Age InsuranceName ICD10Code
1584 St Francis Y 34 SLIDING FEE SCHEDULE M5136, N809, R51, Z6831
2655
我有以下R码:
n = 10
t = 5
N = n * t
x <- rnorm(N)
我要计算每一个t观测值的平均值。这就是:
mean(x[1:5])
mean(x[6:10])
.
.
mean(x[46:50])
类似地,
mean(x[c(1,11,21,31,41)])
mean(x[c(2,12,22,32,42)])
.
.
mean(x[c(10,20,30,40,50)])
我怎样才能简单地做到这一点呢?
谢谢你的帮助。
我在R中有一个数据集,其中包含按时间的观测值。对于每个主题,我有最多4行,一个ID变量,一个时间变量和一个称为X的变量,它是数值的(但也可以是分类的)。我希望通过ID计算从基线到每一行的变化。到目前为止,我在SAS中这样做,这是我的SAS代码:
data want;
retain baseline;
set have;
if (first.ID) then baseline = .;
if (first.ID) then baseline = X;
else baseline = baseline;
by ID;
Change = X-baseline;
run;
我的问题是:我如何在R中做到