随着 AI 应用的普及,以及图片、视频、语音、文本等非结构化数据的快速增长,向量检索成为数据分析相关应用中的重要技术。近年来,学术界对该技术的兴趣日益浓厚,在上一届人工智能领域全球顶级学术会议 NeurIPS 上,就举办了国际首届向量检索比赛。为了更好地理解海量非结构化数据,Zilliz 主办了一场向量检索研讨会,邀请来自学术界和企业界的多位专家学者共同探讨该领域的前沿技术与未来发展。
在研讨会上,香港科技大学广州分校的王炜教授分享关于近似最近邻搜索的研究综述,NeurlPS 检索比赛中的快手团队与 Zilliz 团队分享冠军方案,Zilliz 合伙人、Milvus 工程总监栾小凡分享 Milvus 向量数据库设计理念与未来方向,亿贝团队分享向量检索在工业界的实践。
产、学、研、用跨界对话,将会碰撞出怎样的火花?让我们一起来看看吧:
王炜教授在报告中说道,在高维空间中进行近似最近邻查询等操作,涉及机器学习、数据库等领域,极具挑战性。随着深度学习的深入发展,越来越多复杂的数据可以通过 Embedding 的方式转化为向量,随后在高维空间进行近似最近邻检索。目前,ANNS 面临诸多挑战,比如对高维空间的深入理解和准确刻画问题;维度灾难(Curse of Dimensionality)问题;巨大数据规模所带来的效率问题等。
王炜老师介绍了三种向量检索的基本方法,即:局部敏感哈希(Locality Sensitive Hashing)、乘积量化(Product Quantization,PQ)、图索引,并引导观众思考一些开放性的问题:如何更好地理解高维数据?现有的图索引方法为什么是有效的?evaluation 和系统支持应该如何优化?
更多详情请戳视频 👇
此次比赛是被人工智能领域全球顶级学术会议 NeurIPS'21 接收的国际首届向量检索比赛,旨在促进向量检索领域的新技术发展,并展示其价值,并为相关研究者们提供合作平台,共同推动该领域发展。
早期,向量检索的方法大多已在百万级数据集上验证,而随着数据类型和数量不断增长、应用场景不断丰富,实际生产中向量的数据级别已达到十亿、百亿,甚至更高的级别。在更大的数据集上,原来的方法是否还有效?会不会有一些新的方法诞生?为了验证各类方案在现实场景中的效果,此次比赛首次使用了六个十亿级别的数据集,Facebook、Microsoft Turing、Microsoft Bing、Yandex 专门为本次比赛发布了四个新数据集,并且引入统一的 benchmark 测试。
比赛一共分为三个赛道,此次研讨会着重介绍纯内存方案赛、磁盘方案两个赛道。
关于比赛详细信息,请参见:http://big-ann-benchmarks.com/index.html
嘉宾:乔禹,快手多模态检索工程师
第一赛道要求参赛队伍针对 6 个十亿规模的数据集中的至少三个,达到在 10000 QPS 以上性能的同时,相对基准方案 Faiss 的 IVFPQ 方法尽可能提高召回率。快手团队的方案在四个数据集上都比 baseline 高 5% - 10%,最终获得赛道第一。
快手方案针对 IVFPQ 方法进行了全方面的优化,具体的优化思路如下:
嘉宾:易小萌,Zilliz 高级研究员
第二赛道的 metrics 是在 93GB - 745GB 的数据机上进行搜索,性能要求是 QPS 在 1500 以上。整个方案分三个步骤:
Zilliz 团队的方案使用图索引方法,用分层的 KMeans 加速训练过程,将每个桶与物理上的 SSD 对齐,提高读取效率。该方案最终获得赛道第一的好成绩,在 ssnpp 数据集上召回率提升 72.3%。
更多详情请戳视频 👇
嘉宾:栾小凡,Zilliz 合伙人、Milvus 工程总监
目前,向量数据库面临众多挑战:
Milvus 数据库设计架构的初衷,就是解决上述问题,做出易于使用、易于部署、易于维护、易于对接上下游的数据库,解锁海量非结构化数据的隐藏价值。
Milvus 2.0 是面向向量数据的云原生数据库,提供基于 kubernetes 和线下部署多种模式,具有高可用和高扩展性。对于用户而言,Milvus 数据库除了提供完善的元信息管理和配置管理,还有丰富的工具和社区支持。