问数据清理:在可变公司名称内分组
EN

Stack Overflow用户

提问于 2020-04-08 06:02:02

回答 1查看 44关注 0票数 1

因此，我在做一些关于疗养院的研究，这些疗养院通常是由连锁企业拥有的。我们有9000多家疗养院的企业所有权清单。现在，如果我要将这些数据合并到任何数据中，我认为这不会是一个太大的挑战，但我被要求对相互关联的设施进行分组，以便进行另一次分析。例如: ABCM ABCM公司ABCM公司ABCM公司

我已经删除了所有多余的空格，非字母数字，并升级了所有内容。试着想一种方法，在90%的准确率内，我可以做到这一点。在同一个变量中，是让我感到困惑的部分。我确实有一些其他的细节，比如所有权、状态、zip等。我使用STATA、SAS和Python，如果它们有帮助的话！

python

sas

stata

回答 1

Stack Overflow用户

发布于 2020-04-08 17:41:24

欢迎来到SO。

从广义上讲，字符串匹配是一种痛苦，无论您使用的是什么软件，在大多数情况下，都需要人工干预才能获得令人满意的结果。

在Stata中，您可能想尝试使用matchit (ssc install matchit)进行模糊字符串合并。我不会详细介绍细节(我建议您查看帮助文件，它的轮廓非常清楚)，但是该命令返回与多个相似条目匹配的每个字符串-其中" similar“取决于所选的方法，并且您可以为保留或丢弃的相似性级别指定阈值。

然而，即使有了以上所有的选择，最后一步还是取决于你:我的个人经验告诉我，无论你有多么严格，你总是会得到几个“假阳性”，你必须自己工作！

祝好运!

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61090085

复制

相似问题

问数据清理:在可变公司名称内分组
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据清理:在可变公司名称内分组EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据清理:在可变公司名称内分组
EN