干货 | 机器学习在1号店商品匹配中的实践

携程技术

发布于 2018-03-16 11:55:23

3.9K0

文章被收录于专栏：携程技术携程技术

作者简介

刘洋，1号店搜索部算法工程师，机器学习的爱好者和实践者。上海大学博士，在语义分析、知识发现有深入研究。

电子商务通过服务和商品给用户带来极致体验。其中，服务包括用户的浏览体验、配送体验和客服体验。而商品则包括了商品质量、商品价格以及商品丰富度等。

所谓知己知彼，及时了解友商的商品信息对于电商的发展至关重要。这其中，从海量的商品信息中发现商品间的匹配关系，特别是不同网站间的商品匹配关系，在商品定价、商品选品、类目挂靠等场景中发挥着基础性作用。

电商领域商品匹配问题的特点

1、不同于发现相似商品，发现完全匹配的商品要求商品中所有信息是一致的，没有冲突，可见商品匹配难度高。

2、我们通过商品标题进行商品匹配，商品标题文本短，每个词都很重要。有的时候多一个词、少一个词都可能导致是不匹配的。例如这两组商品，同样是因为“有机”这个词，上面一组商品是匹配的，下面的黑豆和有机黑豆缺是不匹配的。

目前各家网站运营的规范不一样，有的时候人也无法直接从标题中分辨出两个商品是否是匹配的。另外，在我们的场景中，一旦两个商品构成匹配关系，除非商品下架，两个商品的匹配关系不大可能会发生改变。

基于人工规则的商品匹配

通过规则的商品匹配，比较两个商品的主要信息，例如比较判断品牌、口味、重量等信息是否一致，如果都是一致的，则两个商品是匹配的。规则匹配每次都要去分析，两个商品信息中，匹配的有哪些，不匹配的有哪些，用什么规则可以进行区别。

优点：易于干预，匹配错误的Case易于调整。
缺点：当规则的树分叉到达一定量级时人工维护规则模型会变得很困难，并且树分叉的优先级难以判定。

基于特征工程的商品匹配

特征工程是把原始数据转变成特征的过程。这些特征能很好的描述这些数据，利用它们建立的模型在未知数据上的表现性能可以接近最佳性能。基于特征工程的商品匹配，是从两个商品标题中人工定义一些特征，比如从两个商品标题上的品牌是否一致、颜色是否一致、口味是否一致等维度进行打分，利用这些打分特征，通过监督模型进行训练和预测。

优点：关注在特征和模型，选择的特征越好，模型越简单，最终性能也就越好。
缺点：发现好特征比较困难，如果特征构建做的不好，会直接影响模型性能。

纯数据驱动的商品匹配

纯数据驱动的商品匹配，不去人工定义特征，而是将每个词都作为一个特征让模型去学习。如图所示，我们将商品标题中每个词都作为一个特征，特征的数量多，经独热编码后每个标题数据稀疏。

我们选取Factorization Machine（FM）模型，作为纯数据驱动方法使用的模型。因为商品匹配中两两词的特征组合有助于判断商品是否匹配，FM模型适合解决稀疏矩阵特征组合问题。FM模型将特征通过隐向量进行表示，其组合项的参数是两个特征的隐向量的点积，二次项参数个数远少于二阶多项式模型的参数数量，易于训练。另外，FM模型高效，可在线性时间训练和预测。