前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >推荐系统[九]项目技术细节讲解z3:向量检索技术与ANN搜索算法[KD树、Annoy、LSH局部哈希、PQ乘积量化、IVFPQ倒排乘积量化、HNSW层级图搜索等],超级详细技术原理讲解

推荐系统[九]项目技术细节讲解z3:向量检索技术与ANN搜索算法[KD树、Annoy、LSH局部哈希、PQ乘积量化、IVFPQ倒排乘积量化、HNSW层级图搜索等],超级详细技术原理讲解

作者头像
汀丶人工智能
发布2023-03-10 09:25:01
3420
发布2023-03-10 09:25:01
举报
文章被收录于专栏:NLP/KG

1.向量定义应用

1.1 物皆可embedding

如何表达一个物品/元素?

在现实世界中,我们认识和理解一个事物,总是会想办法捕捉它的一些特质或者属性。比如路边一朵红色的野花,那么仅从颜色这个维度,我们可以使用离散的0,1来表达。如 【1,0,0】

在这里插入图片描述
在这里插入图片描述

但仅从颜色描述是不够的,还有花的种类,气味,高度,用途等等。把所有的属性枚举出来,排列好位置,元素对应属性的位置点亮,那么一朵沁人心脾的红色梅花 = 【1,0,0,1,0,0,1,0】

在这里插入图片描述
在这里插入图片描述

上面分别就是 one-hot 与multi-hot的编码标识,在传统机器学习中比较常见。但这样会遇到几个问题:

  • 真实世界,物品描述的属性维度特别多,且值非常稀疏。(几十上百万个维度也是正常的)
  • 物品的属性无法完整枚举到。(很多肉眼看不到的属性)
  • 物品的属性包含离散和连续(比如价格属性可能就是连续的)

embedding 是 使用连续数值向量对元素的一种低维度表达(从可能几十万维度降低到n维度,n一般为 128,256等较低的数值)

可参考:

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2023-03-09,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1.向量定义应用
    • 1.1 物皆可embedding
    领券
    问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档