如何在单词/事物词典中找到前N个相似单词？

在单词/事物词典中找到前N个相似单词的方法可以通过使用文本相似度算法来实现。以下是一个基本的实现步骤：

获取待比较的目标单词。
读取事物词典，并将每个单词与目标单词进行比较。
使用文本相似度算法（如编辑距离、余弦相似度、Jaccard相似度等）来计算目标单词与事物词典中每个单词的相似度。
将相似度按照降序排列，选取前N个相似单词作为结果。

下面介绍一些常用的文本相似度算法：

编辑距离：编辑距离是指通过插入、删除和替换操作将一个字符串转换成另一个字符串所需的最小操作次数。常用的算法包括Levenshtein距离和Damerau-Levenshtein距离。
余弦相似度：余弦相似度衡量两个向量之间的夹角，值越接近1表示相似度越高。在文本相似度计算中，将文本表示为词向量，可以使用词袋模型或者词嵌入模型（如Word2Vec、FastText等）来表示。
Jaccard相似度：Jaccard相似度衡量两个集合的交集与并集之间的比例，用于度量集合的相似度。在文本相似度计算中，将单词看作一个集合，可以根据出现的单词构建集合，并计算集合之间的Jaccard相似度。

针对不同的文本相似度算法，有不同的应用场景和优势。具体选择哪种算法取决于实际需求和数据特点。

以下是腾讯云相关产品和产品介绍链接地址的例子（注意：此处仅为示例，实际推荐产品和链接需根据实际情况选择）：

腾讯云智能文本分析（https://cloud.tencent.com/product/nlp）
- 该产品提供了丰富的自然语言处理功能，包括分词、词性标注、实体识别等，可以辅助实现文本相似度计算。

请注意，本回答仅提供了一个基本的思路和参考，实际应用中还需要根据具体需求进行进一步的调研和实践。

如何在单词/事物词典中找到前N个相似单词？

、、

我有一个要映射的str列表。单词可以是“金属”或“圣帕特里克”。目标是根据这个列表映射一个新的字符串，并找到前N个相似的项目。我知道有gensim和fastText，而且我有一种直觉，我应该追求余弦相似性(或者如果有其他建议，我会洗耳恭听)。我主要处理时间序列，而gensim模型训练似乎不喜欢单词列表。

浏览 11提问于2021-04-18得票数 1

回答已采纳

1回答

我有一个用于整个文档集合的独特单词(不包括停用词)的词汇表。我想执行查询扩展。在一些方法中，我发现对于查询中的每个单词，它的前k个同义词(通常是k=3)都会增加到查询中。但是，我使用的是基于TFIDF文档表示的向量空间模型，因此向查询中添加不在词汇表中的单词最终会被删除。而且，由于不会使用词义消除歧义技术，因此添加同义词将不能保证所添加的同义词保留查询中的单词的含义，从而导致查询漂移。因此，我正在考虑创建一个词义相似度矩阵，它将包括查

浏览 43提问于2021-06-30得票数 0

1回答

主题相关的爬虫词典是如何定义的？

、

我想知道什么是最好的方法来定义一个字典来计算一个特定网站的相关性。至少，带有单词的词典似乎是衡量通过链接发现的新网站相关性的一种重要方法(例如，如果一个网站是链接的，但它不包含任何关于足球的词，它可能与我的足球爬虫无关)。我提出了以下几个想法，但它们都有主要的缺点：用手写一本字典，你可能会忘记很多单词，这是非常费时的，把第一个网站中最重要的单词作为字典->，很多单词可能会丢失，把所有网站上最重要的单词作为<e

浏览 2提问于2011-05-08得票数 1

回答已采纳

1回答

如何使用espeak转储拼音词典

、

我一直在尝试使用espeak为cmusphinx创建一个字形到音素的字典，但是当我从菜单中选择编译并选择编译字典时，它显示编译成功，但是我在任何地方都找不到.dic文件。

浏览 13提问于2018-01-04得票数 0

回答已采纳

4回答

怎样才能在文本中找到复合词的出现？

、

我试图在一篇文章中找到具体的词或复合词的出现。我有一本单词/短语词典，需要与输入的文本相匹配。这本词典由大约3000个单词/复合词组成。需要分析的案文数目可能各不相同。现在我正在使用regex .\b+phrase+\b。这给了我正确的答案，但速度很慢。此外，可能在文本中找到的单词前面或后面有特殊字符，如!，:，。等。虽然text.conta

浏览 2提问于2013-04-08得票数 1

回答已采纳

2回答

在python中，如何用潜在的Dirichlet分配(LDA)代替单格来抽象双图主题？

、、、

LDA原始输出 - topic2 -dioxide,plants,green,carbon所需输出 - topic2 -green plants,carbon dioxide有什么想法吗？

浏览 2提问于2015-09-09得票数 5

回答已采纳

1回答

为什么排序调用比较函数的频率低于线性最小搜索算法？

、、

我正在学习写一个射线追踪仪，一个非常简单的。我还没有任何加速结构，所以这段代码的目的是找到射线击中的最接近的物体。1.第一种方法:对于每一次命中，向列表中添加一个命中结果结构对象，然后使用一个谓词应用std::sort，该谓词比较命中点到射线起源的距离。应该是O(N log N)根据教科书，我认为它是次优，因为我只需要第一个结果，而不是整个排序的列表。好吧，你的标准“在数组中找到最小”算法。应该是O(N)，因此速度更快。这些代码片段

浏览 1提问于2016-03-05得票数 1

1回答

最好的方法，如何在字典中找到单词

、

如何在大词典中找到单词是最好的方法？例如，我有一个单词dog，我想检查一下，这个词是否在我的字典中--只有true, false。还有比binary search更好的方法吗？

浏览 6提问于2014-12-30得票数 0

回答已采纳

3回答

如何在Python中计算两个单词的语义距离

、、

我想知道是否有可能在Python中计算两个相关单词之间的距离/相似度(如“欺诈”和“窃取”)。这两个词本身并不是同义词，但它们显然是相关的。在NLP中有没有什么概念/算法可以用数字来表示这种关系？我不是在寻找Levenshtein距离，因为它与组成单词的单个字符有关。我在寻找它的含义是如何关联的。将不胜感激所提供的任何帮助。

浏览 0提问于2017-04-13得票数 5

1回答

如何使用python从文本中获取信息并将其保存在变量中

、、

所以我正在尝试制作一个离线词典，作为单词的来源，我使用了一个.txt文件。我有一些与此相关的问题。如何在文本文件中找到特定的单词并将其保存在变量中？另外，我的文件的长度有关系吗?它会影响速度吗？.|-| Abendkleid nвечернакаса.|-| Abendland nвечернарокля.|-|Abendland nвечернарокля.gehЗападът。|-| 我想要的是将麦芽汁，例如Ab

浏览 31提问于2020-04-12得票数 0

回答已采纳

1回答

实现音译和音译建议的标准算法

、、、、

我已经构造了一个从英语音译到多种语言的算法，因为我们应该为他们输入的单词给出适当的建议，所以我在该语言词典中进行了逻辑搜索。在字典中强调元音之间的辅音和搜索。

浏览 4提问于2019-05-24得票数 6

2回答

对于精确的字符串模式匹配，哪种数据结构是完美的？

、

我正在做网页内容过滤，有10000的单词出现在一个页面上。我必须将其与我的1500-2500单词字典相匹配。我必须找出页面中是否存在任何单词。建议我最好的搜索和最好的记忆。

浏览 0提问于2012-06-12得票数 0

回答已采纳

2回答

如何选择具有唯一起始字符的随机单词

、

我需要一个MySQL查询从英语词典数据库中选择随机单词。但是，在我的例子中，查询生成的单词的前两个起始字符必须是唯一的。例如，此查询执行选择随机单词的工作，但如您所见，它会生成单词以相同字符开头的结果。en_english479k WHERE CHAR_LENGTH(word)>=12 ORDER BY RAND() LIMIT 10我需要生成在起始字符方面完全唯一的单词(

浏览 2提问于2018-11-02得票数 0

1回答

如何比较没有嵌套循环的列表中的元素？

、、、、

所以我有一个466,550个单词的大清单，我需要比较它们之间的相似性。在我的例子中，两个单词之间的相似性被定义为它们之间的共同字符数。编辑:相似有一个非常基本的定义如下： x = list(set(a)&set(b))我查找了一种比较单词的方法，然后返回每个比较的相似字符的总数编辑2：对于那些有兴趣的人来说

浏览 3提问于2022-02-22得票数 -1

回答已采纳

1回答

为什么要使用单词嵌入来查找类似的单词？

、、、

单词嵌入(如GloVe)的应用之一是寻找具有类似意义的单词。我刚刚看了一下大型数据集上的手套生成的一些嵌入，我发现一个给定单词的最近的邻居通常是相当不相关的。有鉴于此，如果你想找到语义相似的单词，为什么你更喜欢使用嵌入，而不是仅仅从一个由人类编辑的在线词典中下载一个同义词数据库？

浏览 0提问于2018-07-14得票数 1

回答已采纳

2回答

寻找与doc2vec类似的word2vec的相似性

、、、、

有没有办法像我们在word2vec中一样找到类似的文档？ model2.most_similar(positive=['good','nice','best'], topn=10)有什么办法可以做到吗？谢谢！

浏览 1提问于2018-12-05得票数 0

回答已采纳

1回答

与“yes”和“no”相似或表示“yes”和“no”的单词

、

我刚刚开始学习NLP，所以如果这是一个显而易见的问题，请容忍我。谢谢!

浏览 5提问于2016-06-22得票数 1

0回答

JavaFX的WebView控件如何监听href事件？

、、

背景：我正在用Java和JavaFX实现一个词典软件，本词典封装了StarDict格式。StarDict格式支持将单词释义以html代码呈现。但有一些词典的html代码中会有按钮指向某些以bword://开头的链接。（如bword://virtual machine）在bword://字样的字段后，会紧随一个单词或词组。问题：如何在不修改html代码的情况下，在按钮被点击时得

浏览 791提问于2018-10-21

1回答

如何遍历文件并找到单词之间最接近的匹配项[更新]？

、、

我正在尝试从我的正确单词列表(如查找表)中找到拼写错误的单词的关闭匹配。我有一个代码，它使用leven (来源:维基百科)相似度来比较一个单词和一个查找列表，并选择最匹配的(也是通过定义成本)。我的单词列表看起来像correctList.txt： words = ['computer','test','right','tesla',&#x

浏览 10提问于2019-11-27得票数 0

2回答

如何在应用LDA后自动标注主题

、、、、

我已经在python.now中实现了LDA，我想标记我从LDA得到的任何主题。 [(0, u'0.023*"alternate" + 0.023*"transfervisions" + 0.013*"tvcommunity"'), (1, u'0.026*"minimalism" + 0.026*"minimalist" + 0.018*"honking"'), (2, u'0.027*"videomaking" + 0.019*"py

浏览 3提问于2017-10-06得票数 2

点击加载更多