首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在python的文本语料库中找到最相似的句子/字符串

在python的文本语料库中找到最相似的句子/字符串
EN

Stack Overflow用户
提问于 2019-03-18 11:10:42
回答 1查看 951关注 0票数 1

我的目标很简单:我有一组字符串或句子,我想在文本语料库中找到最相似的一个。

例如,我有以下文本语料库:“图书馆的正面装饰着由艺术家米勒德设计的”生命之字“壁画。”

我想找到原始语料库的子字符串,它非常类似于:“库外观是绘制的”。

因此,当输出时,我应该得到的是:“库前装饰”。

我想出的唯一办法就是用可变长度的子串把原来的句子分开(例如。在3,4,5字符串的子字符串中),然后使用来自spacy python模块的类似spacy的东西来评估我的目标文本与所有子字符串的相似之处,然后保留值最高的子字符串。

这似乎是一种效率很低的方法。还有什么更好的办法吗?

EN

回答 1

Stack Overflow用户

发布于 2019-03-19 12:32:51

它可能在某种程度上起作用,但我不认为空间相似性方法(平均字向量)能特别好地工作。

您正在执行的任务涉及释义检测/识别和语义文本相似性,并且有许多现有的工作。它经常用于诸如剽窃检测和机器翻译系统的评估,因此您也可以通过查看这些领域找到更多的方法。

如果你想要的东西对英语来说很快就能发挥作用,有一个建议是terp,它是为MT评估而开发的,但在释义检测方面效果很好:

https://github.com/snover/terp

大多数方法都是为了比较两个句子,所以这并不能解决你潜在的部分句子匹配问题。也许找出最相似的句子,然后在句子中寻找比整个句子更匹配的子字会更有意义?

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55220015

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档