我想尝试找到一种方法,通过分组变量来计算多个(两个以上)内的观察值的数量。在此之后,我希望删除与计数少于两个的观察有关的观察。下面是我想要做的一个例子:
VAR1 VAR2 VAR3
a a 1
a a 2
a b 1
a b 2
b a 1
b a 2
b b 1
b b 2
c a 1
c b 1
d a 1
在这里,我想确保VAR3有两个截然不同的值,关于VAR1和VAR2。
在本例中,您可以看到我希望删除最后三个观察值,因为每个VAR1/VAR2对都有一个值。
有没有一种简单的方法可以做到这一点?
我试过了:
data want;
set have;
by VAR1 VAR2 VAR3;
if first.VAR3 = last.VAR3 then delete;
run;
但这并不起作用,因为它删除了相同VAR1中具有相同VAR3的观察结果。我需要帮助构建更健壮的东西。
最后,我想要这样:
VAR1 VAR2 VAR3
a a 1
a a 2
a b 1
a b 2
b a 1
b a 2
b b 1
b b 2
都会很感谢你的帮助。谢谢。
编辑:
为我需要的东西提供额外的清晰度。我想检查对于存在的每个VAR1和VAR2组合,VAR3是否同时包含值1和2。如果条目只包含其中一个值,则将其删除;如果条目仅包含其中一个值,则将其删除。
谢谢。
发布于 2019-03-21 10:23:19
由于您的条件取决于VAR1*VAR2组中的所有值,因此您可能希望使用双DOW循环。在第一个循环中,计算标志,在第二个循环中,使用这些标志来决定写入哪些观察值。
data have;
input VAR1 $ VAR2 $ VAR3 @@;
cards;
a a 1 a a 2 a b 1 a b 2 b a 1 b a 2 b b 1 b b 2 c a 1 c b 1 d a 1
;
data want;
do until(last.var2);
set have;
by VAR1 VAR2 VAR3;
if var3=1 then any1=1;
else if var3=2 then any2=1;
else anyother=1;
end;
do until(last.var2);
set have;
by VAR1 VAR2 VAR3;
if any1 and any2 and not anyother then output;
end;
drop any1 any2 anyother;
run;
发布于 2019-03-21 06:21:36
就像这样。
data have;
input
VAR1 $ VAR2 $;
datalines;
a a
a a
a b
a b
b a
b a
b b
b b
c a
c b
d a
;
proc sort data=have ;
by var1 var2;
run;
data want;
set have;
by var1 var2;
if first.var1 or first.var2 then var3=1;
else var3+1;
if (first.var1 and last.var1) or (first.var2 and last.var2) then delete;
run;
proc print;
https://stackoverflow.com/questions/55270567
复制相似问题