向量检索:
利用数学向量表示数据,计算数据点之间的相似性或距离,能够处理语义关系,上下文和数据的丰富语义信息,适用于处理图像、音频、视频等多种数据类型,提供更准确和相关的搜索结果,不仅仅依赖于关键字匹配...应用场景: 海量高维向量数据的近似最近邻搜索,如大规模多媒体检索、电商商品检索等。 算法逻辑: 构建包含大量质心的预先计算的聚类簇,称为列表。 将向量分解为多个低维子向量,对每个子向量进行量化编码。...因此,我们的矩阵将是一个|V|*|V|维的矩阵。行和列都是语料集中的词汇,矩阵元素表示两个词汇出现在同一个上下文中的次数,那么矩阵元素值就是两个单词出现在同一个文档中的次数。...也可以简单的理解为:
apricot的向量值为[0,0,0,1,0,1]
pineapple的向量值为[0,0,0,1,0,1]
两个单词有相同的向量,则两个单词的语义相同或者接近。...常用的算法模型有
CBoW连续词袋模型
根据周围的上下文词预测中间词。上下文由当前(中间)单词之前和之后的几个单词组成。这种架构称为词袋模型,因为上下文中的单词顺序并不重要。