专栏首页数说工作室文本相似比较

文本相似比较

大家好,我是数说君,这篇文章是想跟大家讨教一下。

如果有两段简单文本,如何比较它们的相似度?这里我们就假设是英文,不存在中文的分词问题,文本就类似于:

text1 = 'hello, I am shushuo jun'

text2 = 'hi, wo ye shi shushuo jun'

目前比较容易实现的,是计算出每个文本的词向量,然后将两列词向量进行比较,计算出相似度,实现比较简单,就不上code了。我在python中,计算出上面的text1和text2的相似度是51%。

但问题是:

这样的比较是以词为单位的,词稍微变一变,结果就差别很大,比如jeccica和jeccika很相似,但在比较时会认为这是两个完全不同的词。以上面的两段文本为例,我稍微变一下

text1 = 'hello, I am shushuo jun'

text2 = 'hi, wo ye shi shushuoo jun'

计算出来的相似度是38%,可以想象,完全一样的两句话,如果我将其中一句的每个词后面都加一个字母i,看起来明明很相像,计算出来的相似度却是0,这不科学啊。。。

因此在这里请教大家,有没有更好的文本比较方法,可以在下面评论区留言,也可以单独私我,求指导~~

本文分享自微信公众号 - 数说工作室(shushuojun)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2016-12-29

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 海量文本用 Simhash, 2小时变4秒! | 文本分析:大规模文本处理(2)

    这是一个相似匹配的问题(文本相似匹配基础→ 词频与余弦相似度)。但是,亿级数据库,用传统的相似度计算方法太慢了,我们需要一个文本查询方法,可以快速的把一段文本的...

    数说君
  • 文本相似度 | 余弦相似度思想

    我一直觉得,在数据分析领域,只有文本分析是最“接地气儿”的,“接地气儿”不是指最简单,而是我们普通大众的使用它最多。 我们每天使用互联网,但不一定每个人都炒股...

    数说君
  • 文本分析 | 常用距离/相似度 一览

    这个系列打算以文本相似度为切入点,逐步介绍一些文本分析的干货,包括分词、词频、词频向量、TF-IDF、文本匹配等等。 第一篇中,介绍了文本相似度是干什么的; 第...

    数说君
  • 毒舌电影小程序,让你只看好电影,避开大烂片

    知晓君
  • C语言中的宏陷阱 #define SQU(x) x*x

    有同学写过或者想写这样的宏定义吗? 求两个或几个数的乘积: #define SQU(x) x*x 我们正常使用没有问题: ? 但如果这样写呢? ? 哎呀,...

    编程范 源代码公司
  • 简单排序

    选择排序降低了交换次数,但是比较次数仍然很多,当数据量比较少,或者基本上有序的时候,使用选择排序。 对于其他情况,应该选择插入排序。

    悠扬前奏
  • 深入理解 MySQL 5.7 GTID 系列(六):MySQL 启动初始化 GTID 模块

    本节也是一个重头戏,后面的故障案例也和本节有关。本节将详细介绍Gtid模块的初始化,以及什么时候读取了我们前文提及的两个GTID持久化介质:

    wubx
  • 沙箱程序之虚拟机篇

    最顶层是管理虚拟机的入口,linux开源套件 libvirt(官网:www.libvirt.org):

    战神伽罗
  • Havven走在稳定数字货币的前沿,并于即将6月11日发行nUSD

    Havven,一个去中心化支付网络和稳定数字货币。其将于6月11日,推出nUSD,一种位于以太坊区块链上的去中心化稳定数字货币。稳定数字货币空间有望成为2018...

    区块链领域
  • but was actually of type 'com.sun.proxy.$Proxy**'的两种解决方法

    错误描述:Caused by: org.springframework.beans.factory.BeanNotOfRequiredTypeException...

    洋仔聊编程

扫码关注云+社区

领取腾讯云代金券