前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >相似度计算——余弦相似度

相似度计算——余弦相似度

作者头像
鳄鱼儿
发布2024-05-21 16:33:34
750
发布2024-05-21 16:33:34
举报

余弦相似度介绍

余弦相似度是利用两个向量之间的夹角的余弦值来衡量两个向量之间的相似度,这个值的范围在-1到1之间。

余弦相似度越接近1,表示两个向量之间的夹角越小,即越相似;而越接近-1,表示两个向量之间的夹角越大,即越不相似。

两个向量的夹角示例图如下:

image.png
image.png

余弦相似度的计算公式

向量的余弦相似度计算公式

余弦相似度计算的示例代码

用Python实现余弦相似度计算时,我们可以使用NumPy库来计算余弦相似度,示例代码如下:

代码语言:javascript
复制
import numpy as np

def cosine_similarity(A, B):
    dot_product = np.dot(A, B)
    norm_A = np.linalg.norm(A)
    norm_B = np.linalg.norm(B)
    cosine_sim = dot_product / (norm_A * norm_B)
    return cosine_sim

vector1 = np.array([1, 2, 3])
vector2 = np.array([4, 5, 6])
similarity = cosine_similarity(vector1, vector2)
print("余弦相似度:", similarity)
  • 补充解释:linalg.norm()是NumPy库中用于计算向量或矩阵的范数(或长度)的函数。在计算欧式距离时,可以用来计算向量之间的差异。如下实例代码计算单个向量的范数:
代码语言:javascript
复制
import numpy as np

# 计算向量的范数
x = np.array([1, 2, 3])
norm_x = np.linalg.norm(x)
print(norm_x)

余弦相似度的应用

余弦相似度在相似度计算中被广泛应用在文本相似度、推荐系统、图像处理等领域。

  • 如在文本相似度计算中,可以使用余弦相似度来比较两个文档的向量表示,从而判断它们的相似程度。
  • 又如在推荐系统中,可以利用余弦相似度来计算用户对不同商品的喜好程度,进而进行商品推荐。
  • 在图像处理中,可以将图像表示为特征向量,并利用计算余弦相似度来比较图像之间的相似程度。

应用实例说明

假设我们有两篇文章A和文章B,单看整篇文章我们感觉无从下手。

那么我们从拆分的思路去想,就可以将文章拆分成词组,用这些词组组成词频向量,如此我们就可以利用余弦相似度来计算词频向量之间的相似度。

  • 如果两篇文章的余弦相似度接近1,那么它们在内容上是相似的;
  • 如果余弦相似度接近0,则它们在内容上是不相似的。

这样的相似度计算方法可以在信息检索、自然语言处理等领域得到广泛应用。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
原始发表:2024-05-21,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 余弦相似度介绍
  • 余弦相似度的计算公式
    • 向量的余弦相似度计算公式
    • 余弦相似度计算的示例代码
    • 余弦相似度的应用
      • 应用实例说明
      相关产品与服务
      图像处理
      图像处理基于腾讯云深度学习等人工智能技术,提供综合性的图像优化处理服务,包括图像质量评估、图像清晰度增强、图像智能裁剪等。
      领券
      问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档