请为标题道歉,我不知道如何才能把它表述出来!
我这里有一个来自蒸汽的数据集,其中包括蒸汽上的steamid =单个用户,以及steamid_b =另一个用户,它是这个数据集的朋友。现在我想计算一下每个steamid有多少个朋友。
下面是我的数据集中的一个示例:
steamid steamid_b
76561197960265729 76561197967144365
76561197960265730 *76561197960265733*
76561197960265730 *76561197960265733*
76561197960265730 *76561197960265733*
*76561197960265733* 76561197964770089
*76561197960265733* 76561197964770089
*76561197960265733* 76561197964770089
*76561197960265733* 76561197964770089
*76561197960265733* 76561197964770089
76561197960265738 76561198010062752
76561197960265738 76561198010062752
76561197960265738 76561198010062752
76561197960265742 76561197960268662
76561197960265742 76561197960268662
76561197960265742 76561197960268662
76561197960265743 76561197992910264
76561197960265743 76561197992910264
76561197960265743 76561197992910264
76561197960265743 76561197992910264
76561197960265743 76561197992910264
76561197960265743 76561197992910264
76561197960265743 76561197992910264
76561197960265744 76561197968452293
76561197960265745 76561197962688722它第一次看起来好像每个用户都只有一个朋友,但我们可以看到,steamid有时也以steamid_b的形式出现,这意味着他/她实际上有两个朋友。例如,76561197960265733有朋友76561197964770089,但他/她也是76561197960265730的朋友,所以76561197960265733实际上有两个朋友。我可以使用哪个命令来计算这种关系?如果它是相关的,我不知道,但是数据集有超过3200万的观测值。
发布于 2022-10-04 17:01:11
假设每一项观察都代表着一种朋友关系,我只想数一数独特的观察结果:
duplicates drop, force
preserve
keep steamid
tempfile id
save `id'
restore
keep steamid_b
rename steamid_b steamid
append using `id'
by steamid: gen count = _N我还没测试过这个。您还可以创建一个等于1的虚拟模型,然后用steamid方法折叠(和),以得到朋友的数量:
duplicates drop, force
preserve
keep steamid
tempfile id
save `id'
restore
keep steamid_b
rename steamid_b steamid
append using `id'
gen count = 1
collapse (sum) count, by(steamid)https://stackoverflow.com/questions/73936953
复制相似问题