假设我有一个MDM系统(主数据管理),它的主要应用是检测和防止记录的重复。
每次销售代表在系统中输入新客户时,我的MDM平台都会对现有记录进行检查,计算单词或短语或属性之间的Levenshtein或Jaccard或XYZ距离,考虑权重和系数,并输出相似度分数等等。
你典型的模糊匹配场景。
我想知道应用机器学习技术来优化匹配的输出是否有意义,即以最大的精度找到副本。
确切地说,它在哪里最有意义。
还有关于这个话题的这个极好的答案,但我不太明白这个家伙是否真的使用了ML。
另外,我的理解是,加权模糊匹配已经是一个很好的解决方案,甚至可能从财务角度来看,因为无论是手动编码匹配规则还是训练ML算法,无论您部署这样一个MDM系统,您都必须做一些分析和预处理。
因此,我不确定ML的添加是否代表一个重要的价值命题。
任何想法都很感激。
发布于 2017-04-14 17:26:48
使用机器学习的主要优点是节省时间。
很可能,如果有足够的时间,您可以手动调整权重,并提出适合特定数据集的匹配规则。机器学习方法可能会比手工为特定数据集定制的系统表现得更好。
然而,这可能需要几天时间才能手工建立一个很好的匹配系统。如果您使用现有的ML进行匹配工具(如德杜普 ),那么可以在一小时内学习到良好的权重和规则(包括设置时间)。
因此,如果您已经构建了一个对数据执行良好的匹配系统,则可能不值得对ML进行研究。但是,如果这是一个新的数据项目,那么它几乎肯定是。
发布于 2017-07-23 07:31:05
传统上,模糊记录匹配软件需要大量的用户参与项目参数化和文书评审。用户要么需要提供各种输入参数和阈值,要么为机器学习提供匹配和非匹配的示例。在这两种情况下,大量的用户参与和专门知识是成功分析的先决条件。使用无监督机器学习的主要价值是让软件自动生成解决方案,而不需要用户的参与。至少有一种利用机器学习的模糊匹配软件,叫做"ReMaDDer":http://remaddersoft.wixsite.com/remadder。
https://stackoverflow.com/questions/43366705
复制相似问题