首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >选择ml.net特性按单个列对字符串进行分组

选择ml.net特性按单个列对字符串进行分组
EN

Stack Overflow用户
提问于 2019-11-29 01:53:43
回答 1查看 264关注 0票数 0

尝试将一些AI/ML应用到我们目前手工执行的进程中。我有一份大约100000家公司的名单。这些公司的许多名称都是指同一家公司,但拼写略有不同。例如:

  • 建筑检验公司
    • 建筑检验公司
    • 建筑检验公司
    • 建筑检验公司

诸若此类。名单上大概有两万家独一无二的公司。有没有一种方法可以使用ML.NET给出类似公司名称的分组?然后,通过将每个组中的所有名称分配给公司名称的单个拼写,我们可以将输入数据规范化。

谢谢你的指导。

编辑

但是,假设集群是要使用的ml.net特性,我不确定这是否适用于未知(> 10000)数量的集群。

EN

回答 1

Stack Overflow用户

发布于 2019-12-03 04:50:45

您正在描述一个聚类问题,这在维基百科中有很好的描述。

在今天的ML.NET中,我们只有一种聚类算法K-均值.

正如维基百科所指出的,

大多数k均值型算法要求簇数k-提前指定,这被认为是这些算法最大的缺点之一。

所以是的,它不是很适合你的问题。

根据我对集群的了解,您可能应该在单词级别上使用类似于DBSCAN的距离度量来查看编辑距离

您可能能够或可能无法找到DBSCAN的现有C#库,但即使是没有任何索引的天真实现也可能可以接受您的数据大小。

我希望这能帮上忙。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/59097896

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档