基于 Milvus 的 VOVA 拍照购实践

Zilliz RDS

发布于 2021-04-12 16:56:15

4940

发布于 2021-04-12 16:56:15

文章被收录于专栏：Reinvent Data ScienceReinvent Data Science

✏️ 作者介绍：

Jessie Ji，VOVA 算法部 Java 开发工程师

项目背景

VOVA 是一个面向全球市场的新兴跨境电商平台，专注于外贸出口，客户遍布六大洲一百多个国家和地区。VOVA 支持 20 种主流语言和 35 种主流货币，拥有数百万件高品质、高性价比的产品，为用户提供最新的全球平价商品和轻松有趣的购物体验。

近几年，网络购物平台日益流行，大众对网购的热情也日益高涨。但是大部分传统购物网站只支持关键词搜索，当用户无法用词汇准确描述商品时，就很难搜索到心仪的商品。因此，通过图片搜索相似产品，能够帮助用户更准确地找到想要的商品。为方便用户体验快捷的一站式购物，VOVA 全新推出拍照购功能。如果消费者在影视屏幕、广告牌、报刊杂志、行人身上等任何地方看到自己喜欢的商品，他们只需拍照并上传至 VOVA 平台，便可找到相似商品。

系统流程

拍照购系统会根据用户上传的商品图片，对商品库中商品照片进行检索并返回给用户最相似的商品图片。如下图所示，系统流程分为数据导入（蓝线）和查询（橙线）两个阶段，涉及三个关键步骤：

使用 YOLO 模型进行端侧目标检测
使用 ResNet 网络提取图片特征向量
使用 Milvus 进行向量相似度检索

目标检测端

目前，仅 VOVA App 端支持拍照购功能。我们首先在端侧部署 YOLO 算法模型对用户拍摄的图片进行目标检测。YOLO 算法全称是 You Only Look Once: Unified, Real-Time Object Detection。作为一个 one-stage 检测算法，YOLO 仅使用一个 CNN 网络来直接预测不同目标的类别与位置。YOLO 系列算法已经迭代至第五代，且模型较小，适合移动端部署。YOLO 采用卷积网络来提取特征，然后使用全连接层获取预测值。YOLO 的卷积网络结构参考 GooLeNet 模型，包含 24 个卷积层和 2 个全连接层，如下图所示。输入图像大小为 448 * 448，经过若干个卷积层与池化层，变为 7 * 7 * 1024 维张量（图中倒数第三个立方体），最后经过两层全连接层，输出张量维度为 7 * 7 * 30。网络的预测值 P 是一个二维张量，其 shape 为 [batch,7*7*30] 。采用切片，那么 P[:,0:7*7*20] 就是类别概率部分，而 P[:,7*7*20:7*7*(20+2)] 是置信度部分，最后剩余部分 P[:,7*7*(20+2):] 是边界框的预测结果。

图片特征向量提取

本项目采用深度残差网络（Deep residual network, ResNet）模型对库内现有的图片以及经过端侧检测的新上传图片进行特征提取，并转化为特征向量。ResNet 模型针对深度网络的退化问题而提出。随着学习网络的深度增加，网络准确度会出现下降的现象。如下图所示，ResNet 网络参考了 VGG19 网络，在其基础上进行了修改，通过短路机制加入了残差单元。2014 年提出的 VGG 网络只有 19 层，而 2015 年推出的 ResNet 网络则多达 152 层。ResNet 结构易于修改和扩展。改变 block 内的 channel 数量以及堆叠的 block 数量，即可轻松调整网络的宽度和深度，得到不同表达能力的网络，有效地解决网络的“退化”问题。只要训练数据足够，可以通过逐步加深网络获得表达性能更佳的模型。通过模型训练，我们提取每张图片的特征，并转化为 256 维的浮点向量。

相似向量检索

目前 VOVA 拥有超过 3 千万张商品图片，且实际的数据量还在成倍增长。为了从如此庞大的图片库中快速地检索出最相似的商品图片，我们采用 Milvus 作为特征向量相似度计算引擎。相比于Faiss、Annoy 等向量开发库，Milvus 是一个可以开箱即用的工具。Milvus 不仅集成了不同的索引库，还支持不同的索引类型和相似度计算方式。此外，Milvus 官方还提供多种语言的 SDK 和插入、查询等丰富的 API 可供调用，方便项目组直接入手，降低学习成本。在检索速度上，十亿向量查询时单条向量查询时间不高于 1.5 秒，批量查询的平均时间不高于 0.08 秒。因此 Milvus 能够实现十亿级别向量的毫秒级检索。实际实践过程中，我们参照了Milvus 的分片中间件解决方案 Mishards 组件搭建高可用的服务集群，其大致结构如下图所示。使用具有水平扩展能力的 Milvus 集群，能够较好地满足该项目对海量向量数据的高性能检索需求。