需要注意的是,如果这时候有另一段文本需要跟它比较,比如就是:
我是数说君,我爱你们,你们爱我吧?...这时候我们应该这样分词:
我3, 是1, 数说君1, 爱2, 你们2, 吗0, 吧1 → (3,1,1,2,2,0,1)
这里“吗”这个维度也需要加上,相应的,别忘了第一句话中也要加上“吧”这个维度:...*3+1+1+2*2+2*2=19
两个向量模长乘积=sqrt(9+1+1+4+4+1)*sqrt(9+1+1+4+4+1)=20
两个向量夹角余弦相似度=19/20=95%
所以这两段文本的相似度为95%...这里有2个问题值得提一下:
(1)当两个词频向量进行比较的时候,维度会扩大。
比如刚刚例子中,彼此没有出现的“吗”、“吧”两个维度会加进来,保证比较的两段文本维度统一。...(2)英文文本的比较
与中文不同的是,英文不需要分词,因为英文天然就是由一个一个词组组成的。
I Love Shushuojun → I/ Love/ Shushuojun