因此,我在做一些关于疗养院的研究,这些疗养院通常是由连锁企业拥有的。我们有9000多家疗养院的企业所有权清单。现在,如果我要将这些数据合并到任何数据中,我认为这不会是一个太大的挑战,但我被要求对相互关联的设施进行分组,以便进行另一次分析。例如: ABCM ABCM公司ABCM公司ABCM公司
我已经删除了所有多余的空格,非字母数字,并升级了所有内容。试着想一种方法,在90%的准确率内,我可以做到这一点。在同一个变量中,是让我感到困惑的部分。我确实有一些其他的细节,比如所有权、状态、zip等。我使用STATA、SAS和Python,如果它们有帮助的话!
发布于 2020-04-08 17:41:24
欢迎来到SO。
从广义上讲,字符串匹配是一种痛苦,无论您使用的是什么软件,在大多数情况下,都需要人工干预才能获得令人满意的结果。
在Stata中,您可能想尝试使用matchit
(ssc install matchit
)进行模糊字符串合并。我不会详细介绍细节(我建议您查看帮助文件,它的轮廓非常清楚),但是该命令返回与多个相似条目匹配的每个字符串-其中" similar“取决于所选的方法,并且您可以为保留或丢弃的相似性级别指定阈值。
然而,即使有了以上所有的选择,最后一步还是取决于你:我的个人经验告诉我,无论你有多么严格,你总是会得到几个“假阳性”,你必须自己工作!
祝好运!
https://stackoverflow.com/questions/61090085
复制相似问题