首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >机器学习在模糊匹配中的应用

机器学习在模糊匹配中的应用
EN

Stack Overflow用户
提问于 2017-04-12 10:16:48
回答 2查看 18.1K关注 0票数 19

假设我有一个MDM系统(主数据管理),它的主要应用是检测和防止记录的重复。

每次销售代表在系统中输入新客户时,我的MDM平台都会对现有记录进行检查,计算单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数,并输出相似度分数等等。

你典型的模糊匹配场景。

我想知道应用机器学习技术来优化匹配的输出是否有意义,即以最大的精度找到副本。

确切地说,它在哪里最有意义。

  • 优化属性的权重?
  • 通过预测比赛结果来增加算法的可信度?
  • 学习匹配规则,否则我将配置到算法中?
  • 还有别的吗?

还有关于这个话题的这个极好的答案,但我不太明白这个家伙是否真的使用了ML。

另外,我的理解是,加权模糊匹配已经是一个很好的解决方案,甚至可能从财务角度来看,因为无论是手动编码匹配规则还是训练ML算法,无论您部署这样一个MDM系统,您都必须做一些分析和预处理。

因此,我不确定ML的添加是否代表一个重要的价值命题。

任何想法都很感激。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2017-04-14 17:26:48

使用机器学习的主要优点是节省时间。

很可能,如果有足够的时间,您可以手动调整权重,并提出适合特定数据集的匹配规则。机器学习方法可能会比手工为特定数据集定制的系统表现得更好。

然而,这可能需要几天时间才能手工建立一个很好的匹配系统。如果您使用现有的ML进行匹配工具(如德杜普 ),那么可以在一小时内学习到良好的权重和规则(包括设置时间)。

因此,如果您已经构建了一个对数据执行良好的匹配系统,则可能不值得对ML进行研究。但是,如果这是一个新的数据项目,那么它几乎肯定是。

票数 6
EN

Stack Overflow用户

发布于 2017-07-23 07:31:05

传统上,模糊记录匹配软件需要大量的用户参与项目参数化和文书评审。用户要么需要提供各种输入参数和阈值,要么为机器学习提供匹配和非匹配的示例。在这两种情况下,大量的用户参与和专门知识是成功分析的先决条件。使用无监督机器学习的主要价值是让软件自动生成解决方案,而不需要用户的参与。至少有一种利用机器学习的模糊匹配软件,叫做"ReMaDDer":http://remaddersoft.wixsite.com/remadder

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43366705

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档