前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >文本相似比较

文本相似比较

作者头像
数说君
发布2018-04-08 12:07:56
1.1K0
发布2018-04-08 12:07:56
举报
文章被收录于专栏:数说工作室数说工作室

大家好,我是数说君,这篇文章是想跟大家讨教一下。

如果有两段简单文本,如何比较它们的相似度?这里我们就假设是英文,不存在中文的分词问题,文本就类似于:

text1 = 'hello, I am shushuo jun'

text2 = 'hi, wo ye shi shushuo jun'

目前比较容易实现的,是计算出每个文本的词向量,然后将两列词向量进行比较,计算出相似度,实现比较简单,就不上code了。我在python中,计算出上面的text1和text2的相似度是51%。

但问题是:

这样的比较是以词为单位的,词稍微变一变,结果就差别很大,比如jeccica和jeccika很相似,但在比较时会认为这是两个完全不同的词。以上面的两段文本为例,我稍微变一下

text1 = 'hello, I am shushuo jun'

text2 = 'hi, wo ye shi shushuoo jun'

计算出来的相似度是38%,可以想象,完全一样的两句话,如果我将其中一句的每个词后面都加一个字母i,看起来明明很相像,计算出来的相似度却是0,这不科学啊。。。

因此在这里请教大家,有没有更好的文本比较方法,可以在下面评论区留言,也可以单独私我,求指导~~

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2016-12-29,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 数说工作室 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档