计算文档与特定关键字的相似度

是指衡量一个文档与特定关键字之间的相似程度。这个概念在信息检索和自然语言处理中经常被用到，可以用来判断一个文档与特定关键字的相关程度，从而进行文本分类、信息过滤、搜索引擎排名等应用。

相似度计算方法有很多种，常用的包括词频-逆文档频率（TF-IDF）算法、余弦相似度算法、编辑距离算法等。

TF-IDF算法：TF-IDF算法是一种常用的用于计算文档与关键字相似度的方法。它通过计算关键字在文档中的词频和在整个文集中的逆文档频率，来评估关键字对于文档的重要性。可以使用腾讯云的自然语言处理（NLP）服务中的关键词提取功能来获取关键字，并使用文本相似度分析功能计算文档与关键字的相似度。
余弦相似度算法：余弦相似度算法是一种常用的衡量文本相似度的方法。它通过计算文档和关键字之间的向量夹角的余弦值来评估相似度。可以使用腾讯云的自然语言处理（NLP）服务中的词向量表示功能来获取文档和关键字的向量表示，并计算它们之间的余弦相似度。
编辑距离算法：编辑距离算法是一种用于计算两个字符串之间差异的算法，也可以用来衡量文档与关键字之间的相似度。它通过计算需要进行的插入、删除和替换操作的次数，来评估两个字符串之间的距离。可以使用腾讯云的自然语言处理（NLP）服务中的文本相似度分析功能来计算文档与关键字之间的编辑距离。

应用场景：

文本分类：可以根据文档与特定关键字的相似度将文本进行分类，例如将新闻按照与特定主题关键字的相关程度进行分类。
搜索引擎排名：可以通过计算搜索关键字与网页文档的相似度，来确定搜索结果的排名顺序，提高搜索引擎的检索效果。
信息过滤：可以根据文档与关键字的相似度，过滤掉与特定关键字无关的信息，提高信息的准确性和可用性。

推荐的腾讯云相关产品和产品介绍链接地址：

自然语言处理（NLP）：https://cloud.tencent.com/product/nlp
文本相似度分析：https://cloud.tencent.com/product/nlp/TextSimilarityAnalysis
关键词提取：https://cloud.tencent.com/product/nlp/KeywordExtraction
词向量表示：https://cloud.tencent.com/product/nlp/WordVectorRepresentation

比较Orange中的文件(文本源)

、

比较橙色文本文件的最佳方法是什么？如何找到两个文本之间的区别或相似之处，以及主节点之间的关系？

浏览 0提问于2019-05-24得票数 2

1回答

如何根据文档集合计算文档相似度？

有什么方法可以组合成对的文档相似性得分，以获得某个文档相对于文档集合的总体相似性得分？如何根据文档集合计算文档相似度？- ResearchGate。可从：访问2016年8月22日。

浏览 16提问于2016-08-22得票数 0

1回答

我用Gensim在语料库上训练了一个LDA模型。现在我已经有了每个文档的主题分布，如何比较两个文档在主题中的相似程度？我想要一个简要的措施。例如，以下是两个文档的主题分布。总共有75个主题。为了简洁起见，我只展示了概率最大的前10个主题(因此主题不太合适)。(40，0.5523168)表示主题#40对于DOC #1的概率为0.5523168。我应该计算两个向量之间的欧几里德距离还是余弦距离？使用这个概括度量，我是否可以说，例如，DOC 1比DOC2更类似于DOC3，或者DOC1和DOC 2在局部上比DOC 3和DOC 4更相似？谢谢! DOC #1: [(40, 0.5523168), (60

浏览 2提问于2019-03-22得票数 4

回答已采纳

1回答

我应该多久执行一次整个文档语料库的LDA？

、、

让我们假设我们有一个适度增长的文档语料库，即每天都有一些新文档添加到这个文档语料库中。对于这些新添加的文档，我可以只使用LDA的推理部分来推断主题分布。我不需要再次对所有文档执行LDA的整个主题估计+推理过程，只为了获得这些新文档的主题分布。但是，随着时间的推移，我可能需要重新执行整个主题生成过程，因为自上次执行LDA以来新添加的文档数量可能会向文档语料库中添加全新的单词。现在，我的问题是-如何确定两个主题生成执行之间的足够好的间隔？对于我们应该多久执行一次整个文档语料库的LDA，有什么一般性的建议吗？如果我保持这个间隔很短，那么我可能会失去稳定的主题分布，并且主题分布将不断变化。如果我保

浏览 3提问于2015-10-15得票数 1

1回答

基于关键字数量的文档与其他文档相关的概率

、

我有2个文档X和Y。如果用户搜索单词"Computer“，并且我想显示基于关键字"Computer”的最相关的文档。我的算法根据关键词在文档中出现的次数来选择最相关的文档。唯一的问题是文档X有10个单词，"Computer“出现两次，而文档Y有1000个单词，"Computer”出现100次。从文档中的字数来看，说文档Y比文档X更相关是不正确的。如何对此进行规范化，以获得最准确的相关文档。

浏览 8提问于2016-01-09得票数 0

1回答

从数据库中删除相似数据

、、

我想从我的数据库中删除类似的数据。现在我可以从我的数据库中删除重复的数据并保留一个。 $sql = "UPDATE `clf_ads` SET `enabled`= '0' WHERE adid NOT IN (SELECT * FROM (SELECT MAX(adid) FROM clf_ads GROUP BY adtitle) x)"; if ($conn->query($sql) === TRUE) { echo "Record deleted successfully"; } else { echo "Error de

浏览 13提问于2018-12-11得票数 0

1回答

从单词列表中提取更多相似单词

、

所以我有一个描述特定群体的单词列表。例如，有一组是基于宠物的。示例宠物组的单词如下所示： [pets, pet, kitten, cat, cats, kitten, puppies, puppy, dog, dogs, dog walking, begging, catnip, lol, catshit, thug life, poop, lead, leads, bones, garden, mouse, bird, hamster, hamsters, rabbits, rabbit, german shepherd, moggie, mongrel, tomcat, lolcatz,

浏览 1提问于2015-06-17得票数 3

1回答

NLP如何获取两个文档之间的差异

、、、、

我有2个文档A-B (或2系列文档)，我想要一个新的文档来显示这两个文档之间的差异: A-B 根据不同，有几种定义，一种是:单词列表/“概念”包括在A中但不包括在B中。我正在考虑对A和B的每个句子使用TF IDF，例如： from sklearn.feature_extraction.text import TfidfVectorizer d1 = [open(f1) for f1 in text_files] tfidf = TfidfVectorizer().fit_transform(d1) pairwise_similarity = tfidf * tfidf.T 我不确定这是否与生

浏览 0提问于2016-06-08得票数 0

1回答

潜在语义分析如何处理语义

、

我已经通过了LSA方法。有人说，LSA可以用于语义分析。但我不明白它在LSA是如何运作的。有人能告诉我LSA是如何处理语义的吗。

浏览 5提问于2014-08-15得票数 1

回答已采纳

1回答

如何计算多类型数据的余弦相似度？

、、

我在数据库中有记录(行)，并且我想标识类似的记录。我有一个使用余弦相似度的约束。如果变量(属性、列)的类型不同，并以以下形式出现： [number] [number] [boolean] [20 words string] 如何进行矢量化以应用余弦相似度？对于字符串，我可以使用简单的tf-idf。但是对于数字和布尔值呢？如何将这些结合起来呢？我的想法是向量应该是1+1+1+20长度。但是，仅仅将记录的数字转换为矢量中的系数，并将它们与字符串的tf-idf连接以计算余弦相似度，在语义上是“有效的”吗？或者，我可以将数字视为单词，并将tf-idf应用于数字。有没有其他的技术？

浏览 5提问于2013-03-20得票数 1

1回答

Solr:查询多个碎片时的结果排序

如果我在两个碎片之间查询，第一个碎片返回10行，第二个碎片返回100行，那么合并的结果集是如何排列的？我最终会得到第一个碎片(结果最少)的结果吗？

浏览 3提问于2015-10-06得票数 1

回答已采纳

2回答

获取两个全文文档之间相似性度量的方法？

、、、

因此，假设我有三个文本文档，例如(让3个随机生成的文本)。第1号文件： “七岁的时候，每一英里都是平铺的。希望他完全尊敬欧先生。可能是床上有你的快乐，文雅的男孩，优雅的火腿。如果他高兴的话，他会阻止请求。图片和关心也是舒适的。十个困难也不像渴望。同样的公园也是.” 文件2： “格调也太文雅了。完美得罪的企图加上安排年龄先生的结论。得到谁不寻常的表情十加考虑偶尔的旅行。曾经读过诉说年给可能的男人打电话。愤怒的儿子变胖了，收入变高了.” 如果我想在python (使用库)中获得关于这两个文档与第三个文档(换句话说，这两个文档中的哪个文档与第三个文档更相似)有多相似的度量，那么最好

浏览 0提问于2020-01-30得票数 1

回答已采纳

1回答

Perl中的N-Gram、tf-idf和余弦相似度

、、、

我正在尝试在每一行的多个单词中做一些模式‘挖掘’。我已经使用perl中的Text::Ngrams模块进行了N元语法分析，它给出了每个单词的频率。然而，我对这篇文章中的发现模式感到相当困惑。我猜tf-idf也能找到频率，但这与我做的Ngram分析有什么不同，相似性度量也有什么帮助。有没有什么perl模块或代码片段可以让我理解其中的一些概念。请我是一个物理背景，但必须做一些模式识别，所以我是一个新的一些，在这个主题上的一个很好的参考将不胜感激。

浏览 0提问于2011-06-27得票数 0

回答已采纳

1回答

Rasa NLU实体提取使用的是什么模型？它是LSTM还是一个简单的神经网络？

、、、

在词嵌入之后，RASA NLU使用哪种模型来提取实体和意图？

浏览 8提问于2019-01-03得票数 0

2回答

如何计算两种不同鱼群间的余弦相似度？

、、、、

我试图估计语料库A中的每个文档A和语料库B中的所有文档之间的余弦相似性。知道我怎么能高效地做这件事吗？我正在处理相当大的数据集。本质上，我希望在语料库B中获得文档，这对于A中的每个文档来说都是非常相似的。

浏览 8提问于2020-04-09得票数 1

2回答

如何使用LSA计算句子之间的相似度？

我已经理解了当计算单词之间的相似度时LSA是如何工作的。我正在使用lsa.colorado.edu网站上的LSA，但我找不到一个来源，即句子或多个单词之间的相似度是如何计算的。这仅仅是通过平均所有成对的相似性来完成的吗？

浏览 1提问于2012-12-17得票数 1

1回答

lucene是如何构建VSM的？

、、、、

我理解了VSM，TFIDF和余弦相似的概念，但是，在阅读lucene网站之后，我仍然对lucene如何构建VSM和计算每个查询的相似度感到困惑。据我所知，VSM是一个矩阵，每个术语的TFIDF值都被填充。当我尝试从一组文档构建VSM时，使用这个工具花了很长时间--这实际上与编码无关，因为直观地构建一个包含大量数据的VSM矩阵很费时，但对于lucene来说似乎并非如此。另外，使用预先构建的VSM，查找最相似的文档(基本上是计算两个文档或查询与文档之间的相似性)通常很耗时(假设有数百万个文档，因为必须计算每个人的相似度)，但是lucene似乎真的很快。我想这也与它如何在内部构建VSM有关。如果

浏览 7提问于2014-02-14得票数 1

回答已采纳

1回答

如何估计文本中不同类别的概率

、、

假设我有一篇文章，我想根据它的内容为不同的类型(类)分配概率。例如文本1:喜剧10%，戏剧50%，小说20%，浪漫1%，神话5%，冒险10%文本#2 :喜剧40%，戏剧3%，虚构2%，浪漫30%，神话5%，冒险10% 我们给出了每个类中的关键字(可能是ngram)，通过这些关键字进行比较。喜剧类: k11，k12，.，k1m第2级戏剧: k21，k22，.，k2n第3级小说: k31，k32，.，k3o Class 4 Romance : k41，k42，.，k4p第5级神话: k51，k52，.，k5q Class 6 Adventure: k61，k62，. 什么是我们在这个任务中可以

浏览 0提问于2018-01-11得票数 2

回答已采纳

1回答

python机器学习中的关键词分配(不是关键词提取)：从哪里开始？

、

我希望使用python机器学习对一组文章进行关键字分配(而不是关键字提取)，即使用预定义列表中的关键字对文本进行分类。Google给了我大量的关键词提取结果。你能告诉我任何关于关键词分配步骤的博客或文章(更好的推荐给图书馆)吗？如屏幕截图所示(请建议如何共享CSV文件)，已经手动标记了10个现有的问题，还有一个新的第11个问题正在等待根据模式进行标记。

浏览 2提问于2022-08-04得票数 -1

回答已采纳

1回答

多类文本分类:如果输入与类不匹配，则为新类

、、、

我正在尝试对文本片段进行分类。我有9个类别，但我给出的句子可以分为更多的类别。我的目标是找出每句话的行业，我有一个常见的问题是，我的训练集没有“色情”类别和带有色情材料的句子被归类为“财经”。我想让我的分类器检查句子是否可以分类，如果不能只打印出来，就不能对文本进行分类。我使用Tf-idf向量器转换句子，然后将数据提供给LinearSVC。有人能帮我解决这个问题吗？或者有人能给我一些有用的材料？

浏览 3提问于2017-06-17得票数 0

1回答

如何使用主题模型(LDA)输出来匹配和检索新的、相同主题的文档

、、

我在语料库上使用一个LDA模型来学习它所涵盖的主题。我正在使用gensim包(例如，gensim.models.ldamodel.LdaModel)；如果需要，可以很容易地使用其他版本的LDA。我的问题是，使用参数化模型和/或主题词或主题is查找和检索包含主题的新文档的最有效方法是什么？具体来说，我想刮一个媒体API，以找到与我的原始语料库中的主题相关的新文章(样本外文档)。因为我在做这个“盲搜索”，所以在每个新文档上运行LDA可能太麻烦了；大多数新文档将不包含这个主题。当然，可以简单地检索包含LDA学习主题的大部分常用词的新文档；然后将LDA应用于返回的文档以获得进一步的信心。我想知

浏览 5提问于2016-10-25得票数 0

回答已采纳

2回答

特定主题语言模型的评价

、、、

我已经在我的自定义数据集上完成了一个预先训练过的语言模型(GPT-2)。我希望有一种方法来评估我的模型生成特定预定义主题的句子的能力，以单个关键字的形式给出。“计算机”)或一袋袋单词(如：“计算机”、“Linux”、“服务器”.) 例如，给定LM，模型的输出与单词计算机指定的主题有多大的关系？我已经尝试过的是:从LM生成足够多的句子，并将这些句子与目标主题(或主题中的每一个单词，我们有多个单词)之间的平均余弦相似度作为这里描述。我不确定这是否是一种有效的方法，而且句子之间的余弦相似性在很多情况下也会产生很差的结果。提前感谢您的帮助。

浏览 0提问于2020-10-02得票数 2

回答已采纳

3回答

如何度量两个文本文档之间的相似性？

、、、、

假设我有100个文本文档，我想对这些文档进行集群。第一步是构造文档的成对相似矩阵100X100。我的问题是：衡量两个文档之间相似性的通用方法是什么？谢谢,

浏览 0提问于2019-04-14得票数 4

回答已采纳

1回答

对于以下数据集，我应该使用哪种训练技术？

、、、

我有一个数据集，它是一个csv，有2列“文本”，“名称”。 "Text“列包含新闻文章。 " name“列包含从相应文本中提取的名称。我必须训练这个数据集上的模型，数据集包含4000多个独特的新闻，其中，一旦你的模型被训练和验证，用户应该能够通过任何文本，它应该提取正确的名称。我应该使用什么技术并实现它。请提个建议。提前谢谢。

浏览 0提问于2019-08-08得票数 0

1回答

在Apache中，位置在语义上是否与顺序相同？

在Apache中，如果我有来自两个不同文档的两个字段：字段1：“汤姆·索耶是”哈克贝利·芬恩“中的一个角色” 字段2：“huckleberry finn中的一个角色是tom sawyer” *请注意，为了简单起见，字段没有如这里所示的标记化，但它们位于索引中。我搜索“huckleberry finn中的一个字符”(也是标记化的)，字段2的分数会更高，因为不仅在字段中标记与查询中的顺序相同，而且文本中短语的位置在字段和查询中都位于开头？

浏览 3提问于2016-08-07得票数 0

回答已采纳

2回答

求和余弦相似矩阵是确定整体相似性的好方法吗？

、

我正在尝试类似的研究摘要，所以我使用word嵌入将单词转换为1x768向量，所以总体上将抽象转化为带有形状的嵌入(#ofword，768)。两个抽象之间的余弦相似性返回一个矩阵(#ofwords1 1，#ofwords1 2)，然后我对其进行总结，以得到一个总体得分。我想知道的是，在一个余弦相似矩阵中对所有值的总结是否真的是确定两个不同文本之间的整体相似性的好方法呢？有没有一种更好，或者更便宜的计算方法来做到这一点？

浏览 0提问于2020-08-26得票数 2

2回答

对模型中的多个字段执行全文搜索(Django 2.1)

我想对模型中的两个字段执行全文搜索。下面是我当前的代码： if 'keyword' in request.GET: search_term = request.GET['keyword'] vector = SearchVector('Title', weight='A') + SearchVector('Content', weight='B') articles = articles.annotate(similarity=TrigramSimilarity(vecto

浏览 29提问于2019-01-22得票数 1

回答已采纳

1回答

向现有余弦相似度矩阵添加新元素

、、

我用sklearn.metrics.pairwise中的cosine_similarity计算了一个余弦相似度矩阵。 Matrix: 2414514 413915 419480 473104 534621 609406 654913 654914 \ 2414514 1.000000 0.0 0.0 0.0 0.0 0.0 0.755929 0.755929 413915 0.000000 1.0 0.0 0.0 0.0 1.0 0.000000 0.00000

浏览 9提问于2019-04-02得票数 0

1回答

如何在文档字段MongoDB中找到相似点？

、、

给定如下数据： {'_id': 'foobar1', 'about': 'similarity in comparison', 'categories': ['one', 'two', 'three']} {'_id': 'foobar2', 'about': 'perfect similarity in comparison', 'categories': ['one&#

浏览 3提问于2016-07-14得票数 8

回答已采纳

1回答

从大型文本语料库构建图表

、、、、

我得到了大量的文件，我应该对这些文件进行各种分析。由于文档将作为最终产品的基础，所以我考虑用这个文本语料库构建一个图表，每个文档对应于一个节点。构建图形的一种方法是使用模型(如use )首先查找文本嵌入，然后在相似度超过给定阈值的两个节点(文本)之间形成一个链接。然而，我认为最好使用一种基于纯文本相似性度量的算法，即不将文本“转换”为嵌入的算法。和以前一样，如果两个节点(文本)的文本相似性超过了给定的阈值，我将在它们之间形成一个链接。现在，问题是:衡量两种文本相似性的最简单方法是什么，更复杂的方法是什么？我想先从这两篇文章中提取关键词，然后计算Jaccard索引。任何关于如何实现这一目标的

浏览 0提问于2022-05-21得票数 1

回答已采纳

1回答

在没有方向的情况下，如何利用文档特征向量上的余弦相似度公式？

、

在数学中，向量具有大小和方向。在数据科学中，为了识别文档的相似性，我们将文档转换为特征向量。然后应用源文档与目标文档特征向量之间的余弦角公式。然而，余弦公式仅适用于向量。一个矢量应该有两个震级和方向。对于表示为向量的文档，方向在哪里？

浏览 0提问于2020-05-17得票数 1

1回答

在评估文档之间的jaccard相似度时，如何确定c的上界？

、、、

假设我在O(D*sqrt(D))时间内预处理了一百万个文档(使用minhash计算签名)，其中D是文档的数量。当我得到一个查询文档时，我必须在O(sqrt(D))时间内返回一百万个预处理文档中的第一个，使得jaccard相似度大于或等于0.8。如果没有与查询文档足够相似的文档达到该分数，我必须返回一个相似度至少为c* 0.8 (其中c<1)且概率至少为1- 1/e^2的文档。如何找到此minhash方案的最大C值？

浏览 5提问于2017-11-23得票数 0

1回答

如何在Python中找到与sklearn管道的最佳匹配

、

我已经使用TfidfVectorizer和TruncatedSVD建立了管道。我用滑雪板训练模型，利用余弦相似度计算两个向量之间的距离。这是我的密码： def create_scikit_corpus(leaf_names=None): vectorizer = TfidfVectorizer( tokenizer=Tokenizer(), stop_words='english', use_idf=True, smooth_idf=True ) svd_model = Truncate

浏览 4提问于2015-07-06得票数 0

回答已采纳

1回答

文本内容相关性检查

、、

我需要检查特定网页上内容的相关性。我有成千上万的网页要检查这个。检查页面标题是否与页面上的内容相关的最佳方法是什么。

浏览 0提问于2018-11-03得票数 0

回答已采纳

2回答

Sklearn和gensim的TF-IDF实现

、、

我一直在尝试确定一组文档之间的相似度，我正在使用的方法之一是与TF-IDF结果的余弦相似度。我尝试使用sklearn和gensim的实现，它们给出了类似的结果，但我自己的实现得到了不同的结果。经过分析，我注意到他们的实现与我研究和遇到的不同： Sklearn和gensim使用原始计数作为TF，并对结果向量应用L2范数。另一方面，我发现的实现将规范化术语计数，例如 TF = term count / sum of all term counts in the document 我的问题是，它们的实现有什么不同？它们最终是否会提供更好的结果，用于集群或其他目的？编辑(这样问题就更清楚了)：

浏览 1提问于2017-05-22得票数 1

1回答

查询与文档的余弦相似性

、、、、

所以我在一个信息检索的概念上挣扎。它涉及到给定查询的文档的余弦相似性。我正在操作大约1000个文件，以生成一个带有docID x项的术语频率矩阵。我已经生成了这个矩阵，但是我很难理解如何处理这个查询，并从中生成余弦相似性。我得到了一个查询，其中包含了我应该通过语料库解析的术语，我已经这样做了。并生成一个向量，在该向量中，所有docID至少包含一个单词。所以我应该用余弦相似度来计算所有这些行向量？示例：查询是在词频矩阵中包含列位置和项的列表。 OccurenceVector是查询中包含单词的所有文档的数组。 Query = [[2796, 'crystalline']

浏览 0提问于2018-11-09得票数 0

回答已采纳

1回答

与“yes”和“no”相似或表示“yes”和“no”的单词

、

我想知道是否有基本上表示“是”或“否”的词的语料库？如果没有，有哪些可能的算法/技术来收集这些信息？我刚刚开始学习NLP，所以如果这是一个显而易见的问题，请容忍我。谢谢!

浏览 5提问于2016-06-22得票数 1

1回答

如何处理输入和输出都是图像的数据(特别是图像数据)？

、

我以图像的形式输入数据集，输出数据也是图像而不是被标记的数据。因此，它既不是分类问题，也不是回归问题。输入和输出干扰之间可能存在一定的相关性，我希望我的模型能够了解这种相关性。我正在努力寻找适当的方法来实现这一点。有人能帮忙吗？

浏览 0提问于2021-07-02得票数 1

1回答

mahout推荐自定义项目相似度

、、

我想根据用户的技能向他们推荐工作，使用mahout.So是否有任何方法可以定义工作相似性逻辑。我找到了ItemSimilarity接口，但在自定义实现后无法使用它。

浏览 0提问于2014-07-30得票数 2

1回答

使用tensorflow获取负余弦距离

、、

我正在使用tf.losses.cosine_distance(Y, outputs, axis=2, reduction=tf.losses.Reduction.MEAN)来衡量我的标签和预测之间的差异。张量形状为[batch_size, sequence_length, embedding]。在我的例子中，预测的形状是[16311, 20, 100]。我的结果如下。 ----------------------epoch1---------------------- train 1 loss 1.1429076 ----------------------epoch2----------

浏览 0提问于2019-05-29得票数 1

1回答

有没有一种方法可以使用lucene来发现基于搜索查询的单词的相关性

、、、

全部：我想知道是否有任何方法可以使用lucene来基于搜索历史发现搜索关键字相关性？例如：该代码可以读取用户搜索字符串，对其进行解析，提取关键字，并找出搜索时最有可能聚集在一起的单词。当我尝试Solr时，我发现lucene有很多文本分析功能，这就是为什么我想知道是否有任何方法可以使用它并与其他机器学习库(如果需要)相结合来实现我的目标。谢谢

浏览 0提问于2015-04-29得票数 2

2回答

NLP算法原理

、、、

我是一个非常有用的问答网站的新手，而且我的英语也不是很好，很抱歉。我对一个web项目很感兴趣，我认为它并不难做，而且是一个简化的冲浪。这个算法是确保孩子是非常简单的，因为它可以快速分析网页内容并找到相关信息。谁能告诉我，这个算法是如何工作的，我试图做出类似的东西？这个算法是基于什么原则实现的？谢谢!

浏览 1提问于2012-01-09得票数 2

回答已采纳

1回答

三重损失暹罗神经网络模型评价(model.evaluate) -- tensorflow

、、、、

我训练了一个使用三重态损失的暹罗神经网络。这很痛苦，但我想我成功了。然而，我很难理解如何用这个模型来进行评估。 SNN： def triplet_loss(y_true, y_pred): margin = K.constant(1) return K.mean(K.maximum(K.constant(0), K.square(y_pred[:,0]) - 0.5*(K.square(y_pred[:,1])+K.square(y_pred[:,2])) + margin)) def euclidean_distance(vects): x, y = vects

浏览 12提问于2022-04-22得票数 6

回答已采纳

2回答

使用Node JS客户端从Elasticsearch索引中提取最重要的单词

、、、

受以下和的启发，我尝试为我的域创建一个概念性搜索，使用word2vec作为我的查询的同义词过滤器。给出了以下文档结构： { "_index": "conversations", "_type": "conversation", "_id": "103130", "_score": 0.97602403, "_source": { "context":

浏览 1提问于2016-11-14得票数 23

1回答

关于word2vec most_similar()函数

、、

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

4回答

如何在百万文档的文档分类中发现离群点？

、、、、

我有一百万个文档，它们属于不同的类(100个类)。我想找出每个类中的异常文档(不属于该类，但分类错误)，并对它们进行过滤。我可以通过比较每个文档的标记来使用余弦相似度进行文档相似度。我无法将其应用于为给定类别过滤错误分类的文档。示例:为了简单起见，考虑这3个类以及它们下面的文档。 ClassA ClassB ClassC ... doc1 doc2 doc3 doc4 doc5 doc6 doc7 doc8 doc9 我如何有效和高效地找出ClassA中doc4(和其他类似文档)被错误分类，以便我的训练数据不包含异常值？

浏览 0提问于2019-12-19得票数 2

2回答

比较文档-文档相似度

、、、、

我目前正在进行NLP/IR中的一个java项目，并且对此相当陌生。该项目由大约1000个文档组成，其中每个文档大约有100个单词，结构为具有词频的词袋。我想根据文档(从集合中)找到类似的文档。使用TF-IDF，为查询(给定文档)和集合中的所有其他文档计算tf-idf，然后将这些值作为具有余弦相似度的向量进行比较。这能让我们对它们的相似性有一些了解吗？或者，由于大查询(文档)，这是否不合理？有没有其他相似性度量可以更好地发挥作用？谢谢你的帮助

浏览 2提问于2015-04-24得票数 0

1回答

潜在语义分析与学习

、

我正在尝试写一个脚本，在那里我将计算几个文档的相似性。我想用LSA来做。我已经找到了下面的代码，并对其做了一些修改。我有一个输入3个文档，然后输出一个3x3矩阵，其中包含它们之间的相似性。我想做同样的相似度计算，但只对sklearn库。这有可能吗？ from numpy import zeros from scipy.linalg import svd from math import log from numpy import asarray, sum from nltk.corpus import stopwords from sklearn.metrics.pairwise import

浏览 0提问于2013-09-25得票数 6

回答已采纳

1回答

如何针对查询找到轻松的文档？

、、、、

我经历了一个项目，在这个项目中，我必须针对查询逐个找到相关的文档。首先，我计算了所有文件的所有单词的TF，以色列国防军。然后，我将TF和IDF相乘，并将每个项及其对应的TF-IDF分数存储在一个List.here中，这个类名为Tfidf，计算TF和IDF。 public double TF(String[] document, String term) { double value = 0; //calculate Term Frequency for all term for (String s : document) { if

浏览 0提问于2020-09-10得票数 0

回答已采纳

1回答