我很少有编程经验,但我正在从事一个统计项目,并希望生成一个不相等的概率样本,其中一个单元的包含概率基于其大小(PPS)。
基本上,我有两个数据集:
ds1列出了美国的州和我试图估计的参数ds2有每个州的人口规模。我的问题:


也只是对公式的注记: pi_i是包含概率,pi_ij是联合包含概率。
发布于 2017-12-03 02:47:29
是的,这叫做加权抽样。只需将权重设置为状态大小,严格地说,您甚至不需要通过1/sum(sizes)来规范它们,尽管这始终是一个很好的实践。上面有大量重复的帖子,说明如何进行加权抽样。
唯一微小的复杂之处在于,您需要对数据集进行join() ds1, ds2。告诉我们你尝试过什么代码,如果有问题的话。建议您使用dplyr或data.table。
你的第二个问题应该作为一个单独的问题来问,并且是一个主题之外的问题,或者至少不会得到很好的回答--最好在姐妹网站CrossValidated上问一些统计问题。
https://stackoverflow.com/questions/47614750
复制相似问题