首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >从邮政地址数据中提取相关属性,以便对这些数据进行PCA (使用R)

从邮政地址数据中提取相关属性,以便对这些数据进行PCA (使用R)
EN

Stack Overflow用户
提问于 2015-06-17 09:51:06
回答 1查看 73关注 0票数 0

我有一个包含字符串信息的大文件:邮政地址。地址:"1780 wemmel rue hendrik de mol 59/7“

我需要对这些数据进行PCA分析,以便在个人图表上确定代表体检交付岗位的集群(建筑、公司、.)。要做到这一点,我需要从字符串中提取数字(或非数字)相关信息,并使其成为我的属性,然后我可以使用PCA来分析它。

我首先创建了36个属性(A和0-9),它们表示每个alpha字符和数字的出现情况。但是PCA还没有给出一个好的结果,我需要提取更多的属性来描述数据。

我需要你的想法,我可以从数据中提取什么,以便在单个图上有一个很好的集群表示。我在用R。

谢谢。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2015-06-17 10:59:42

我认为这不是PCA的任务。我首先尝试介绍一种两个地址之间的距离度量。您可以,或者使用整个地址作为一个单一的特性,然后有大量的通用字符串相似性度量,例如Levenshtein距离。在方法包中有一个utils引入了更多的功能,如建筑数量、邮政编码等,并采用欧几里德距离和文本相似距离相结合的方法。你的36个变量对这项任务来说似乎太多了。无论如何,您的距离度量应该给出“关闭”地址的小值和域中不相关地址的大值。

在确定距离度量和选择功能之后,将具有自定义距离函数的K-均值聚类应用于您的数据。为此,您可以使用挠曲包。关于确定集群数量的很好的建议可以找到这里

这样你就能找到你的星团了。祝好运。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30888087

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档