字符串相似度_字符串相似度算法_字符串相似度算法c - 腾讯云开发者社区

java、lucene

我正在使用Wordnet数据库。它只给我一个或两个单词的含义或同义词。如果我想要相似的短语，该怎么做呢？请任何人在这方面帮助我。另外，我在代码中使用了Lucene。有没有办法用lucene做到这一点呢？ WordNetDatabase database = WordNetDatabase.getFileInstance(); for (int i1 = 0; i1 < list1.size(); i1++) { Synset[] synsets = database.getSynsets(list1.get(i1));

浏览 1提问于2015-05-08得票数 1

1回答

文本数据的长度是否影响聚类的得分？

python、scikit-learn

我正在学习如何使用Pythons Scikit-Learn库进行集群。我有一个句子(字符串)的列表。我想知道，字符串的长度是否会影响silhouette_score。例如，我有从2个单词到35个单词的句子，我尝试了从2到60个集群的数量，我得到的最大的silhouette_score是7。这会影响到silhouette_score吗？最好是过滤我的数据，这样我就可以选择比字数更接近的句子，例如，将字数从20-25或5-10设置为？我的代码是这样的： list_of_comments = data #cv = TfidfVectorizer(analyzer = 'word'

浏览 0提问于2019-09-07得票数 1

回答已采纳

1回答

了解何时清除输入框并插入新输入

javascript、jquery

我正在使用jQuery autocomplete与多个相互连接的输入框，即当在第一个输入框中插入一些值并失去焦点时，以下输入框会受到影响(即相应的值被过滤)。然后我可以聚焦和另一个输入框，并开始键入一些值，这样我就可以应用这两个过滤器(键入的值和根据以前的输入框的值)。另外，我还设置了一个事件，用于在删除输入框中的所有字符时清除所有输入框： if (inputBoxTrigger.val().length == 0 && (event.keyCode == BACKSPACE || event.keyCode == DELETE)) { jQuery.each

浏览 1提问于2016-11-22得票数 2

2回答

用于Excel模糊查询的算法

python、excel、levenshtein-distance、fuzzy-logic

我正在做两组公司名称的匹配工作。我试着用Python编写代码，使用Levenstien的距离。我遇到了公司缩写的问题，以及他们的尾随部分，比如Pvt，Ltd。我已经用Excel模糊查找运行了相同的集合，并获得了良好的结果。我有一种方法，我可以看到excel模糊查找是如何编码的，并使用python中的相同实现。

浏览 25提问于2018-09-28得票数 1

4回答

使用Microsoft Cognitive Services查找相似项目

microsoft-cognitive

哪些Microsoft认知服务(或Azure机器学习服务？)是最好的，也是最少的工作，用来解决查找给定文章的相似文章的问题。文章是一串文本。假设我没有关于文章的用户交互数据。 Microsoft Cognitive Services中有什么东西可以开箱即用地解决这个问题吗？似乎我不能使用推荐API，因为我没有交互/用户数据。安东尼

浏览 2提问于2016-07-01得票数 0

1回答

在余弦相似度中对数字比字符串应用更多的权重

python、scikit-learn、cosine-similarity

我有一个程序，可以从互联网上提取地址，并将其与数据库进行核对。它很有用，但我现在正在尝试引入一个相似性函数，将互联网上的地址与我数据库中的地址进行比较。我使用下面的脚本来检查余弦相似度如何比较地址： import string from sklearn.metrics.pairwise import cosine_similarity from sklearn.feature_extraction.text import CountVectorizer addresses = [ '705 Sherlock House, 221B Baker Street, London NW

浏览 3提问于2020-05-24得票数 0

1回答

SQL、Python或R中的相似性分析

python、sql、r、excel

我有一个非常有趣的问题，在过去的几天里，我一直在努力解决，但没有运气。我有120k个项目的描述，我必须与38k个项目进行比较，并确定它们之间的相似程度。最终，我想看看在基于相似性的120k内是否存在38k中的任何一个。我在excel中找到了很好的相似性脚本，我把我的数据组织成乘法表，这样我就可以比较从120k到38k的每个描述。请看下面的图片。所以函数是有效的，但是计算量是不可能在excel中运行的。如果我把它一分为二( 120k X 16k)，我们谈论的是超过20亿的计算。该功能是比较从A2到B1的描述，然后比较A2到C1的描述，依此类推，直到16k。然后它从A3中进行描述，并做同样的事情，

浏览 1提问于2018-03-14得票数 0

1回答

相似特征轻微偏移时的欧几里德距离

euclidean-distance、fuzzy-comparison

假设我想找到向量a =0 0 2 0 0 0的相似向量。我有两个候选人： b1 =0 0 0 2 0 0 0，其中“功能”仅在1位置 b2 =0 0 0 2 0，其中“功能”位于5位置之外 (a，b1)的欧氏距离与(a，b2)的距离相同。我希望b1能得到更高的“相似性”分数。是否有一种众所周知的方法(请说出来)来处理这些问题？某种模糊欧氏距离？我能给出的一个可能的解决方案是，计算(a，b1)的欧几里德距离，在整个b1上左移一个位置，然后左移两个位置，左移三个位置等等，然后对右移动做同样的计算。每次我这样做，我调整计算出的欧几里得位置的重量，随着移动距离的增加而减小。然后对b

浏览 1提问于2015-02-20得票数 0

6回答

百分比相似度分析(Java)

java、similarity

我有以下情况：字符串a=“网络爬虫是自动浏览万维网因特网的计算机程序”；字符串b=“网络爬虫计算机程序浏览万维网”；有没有什么想法或标准算法来计算相似度百分比？例如，在上面的情况下，通过人工查找估计的相似度应该是90%++。我的想法是对两个字符串进行标记化，并比较匹配的标记数。类似于(7个令牌/1 0个令牌)* 100。但是，当然，对于这种方法，它根本不是有效的。比较匹配的字符数量似乎也没有效果... 有谁能给点指导吗？以上是我的项目，抄袭分析器的一部分。因此，匹配的单词将完全相同，没有任何同义词。在这种情况下，唯一的问题是如何计算相当准确的相似度百分比。非常感谢你的帮助。

浏览 2提问于2010-03-06得票数 4

回答已采纳

4回答

python搜索技术:单词相似度

python、search、search-engine、similarity

我想得到两个单词的相似度百分比，例如) abcd versus zzabcdzz == 50% similarity 不需要非常准确。有没有办法做到这一点？我正在使用python，但请随意重新注释其他语言。

浏览 1提问于2011-02-12得票数 3

回答已采纳

1回答

将查询的部分与trigram索引匹配

postgresql、search、trigram、textmatching

我有一个events表，其中每个事件都有一个title和description。搜索应搜索这两列：标题：迪克(Ens)和简 description：每周见面讨论经典书籍！鉴于以上所述，我希望book club查询与之匹配。我的索引： CREATE INDEX evsearch_idx on events using gist((title || ' ' || description) gist_trgm_ops) 我的问题是： SELECT * FROM events WHERE title || ' ' || description ILIKE

浏览 1提问于2018-09-08得票数 0

回答已采纳

2回答

比较两种数据结构的相似性

algorithm、comparison、computer-science、equality、fuzzy

我正在尝试寻找一种算法来检查两个数据条目之间的相似性。假设我有两个数据结构(联系人列表中的字段)，其中包含以下数据： // UserA addressbook. name: Frank Sinatra mobile: +44 555 555 555 55 // UserB addressbook. name: Frank Albert Sinatra phone: 004455555555555 我从不同的供应商那里得到了这些条目，UserA同步了他的谷歌账户，而UserB同步了他的微软账户，但我想让我的算法告诉我，这两个用户都认识同一个人(以一定的概率)。有没有人知道我应该去哪里调查？我

浏览 0提问于2013-11-29得票数 0

1回答

聚类内聚类，即多类聚类的数据表的嵌套聚类

python、python-2.7、machine-learning、artificial-intelligence、cluster-analysis

如何对数据集中具有相似名称(如McDonald和Mc DOnald's)的字符串应用聚类，并且如果字符串相同(如sam和其他sam)，则如何再次基于价值或价格进行聚类例如-考虑一个具有10个元素的数据表 name price ram 200 shyam 150 ram12 59 gita 45 ram 2 45 g11ita 23 john2 32 john

浏览 28提问于2019-06-15得票数 1

回答已采纳

2回答

javascript和python中的字符串序列相似性/差异率

javascript、python

假设我有一个引用字符串 "abcdabcd“ 和目标字符串 "abcdabEd“ 在javascript和python中有没有一种简单的方法来获得字符串序列的相似度？示例： "abcdabcd“与"abcdabEd”的区别在于"E“，因此相似率较高，但小于1.0。 "bcdabcda“与"abcdabEd”有很大的不同，因为特定字符串索引处的每个字符都是不同的，所以相似度比率为0.0 请注意，相似率不是每个字符串中有多少相似字符，而是序列彼此之间的相似程度因此，像这样的代码 # python - incorrect for this

浏览 1提问于2013-02-26得票数 1

回答已采纳

1回答

使用模型比较姓名和姓氏

machine-learning、gensim

我把员工的名字保存在文本文件中。我处理了这个文件，并比较了一个已经存在的名称。当我使用most_similar方法检查时，我发现即使在语料库中存在完全相同的名称，它也会返回完全无关的名称。 import gensim training_file='todel.txt' mylist=list() with open(training_file, encoding="iso-8859-1") as f: for i, line in enumerate(f): mylist.append(gensim.models.doc2vec.Tag

浏览 1提问于2018-04-11得票数 0

回答已采纳

2回答

中调用trigram相似函数的plpgsql函数不使用GIN或GIST索引。

postgresql、similarity、levenshtein-distance、fuzzy、trigram

我想把PostgreSQL、Levenshtein和trigram相似函数结合起来。三角图相似函数的主要优点是可以利用GIN或GIST指标，从而快速返回模糊匹配结果。但是，如果在另一个函数中调用它，则不使用索引。为了说明这个问题，这里有一个plpgsql函数"trigram_similarity“，它调用原始trigram的”相似性“函数。 CREATE OR REPLACE FUNCTION public.trigram_similarity( left_string text, right_string text) RETURNS real AS $BODY$

浏览 2提问于2016-05-04得票数 0

回答已采纳

1回答

LCS和字符串相似度之间的关系是什么？

algorithm

我想知道两个字符串和我在下面的页面中找到的工具有多相似：它说这个工具是基于下面的文章： “一种O(ND)差分算法及其变种” 可从：获得我读过这篇文章，但我对他们如何编写该工具有一些疑问，例如，作者说它基于C库GNU diff和analyze.c；它可能指的是：这个是：我的问题是如何理解与这篇文章的关系，因为我读到的这篇文章展示了一种寻找两个字符串之间的最长公共子序列( LCS )的算法，所以他们使用了一种改进的动态编程算法来解决这个问题。修改是使用最短路径算法来找到修改次数最少的LCS。在这一点上，我感到困惑，因为我不知道我首先提到的工具的作者如何使用LCS来查找两个序列的相似程度

浏览 2提问于2016-09-05得票数 1

2回答

Hamming距离与Levenshtein距离

algorithm、diff、nlp、levenshtein-distance、hamming-distance

对于我正在解决的问题，找到两个序列之间的距离来确定它们的相似性，序列顺序是非常重要的。然而，我拥有的序列并不都是相同的长度，所以我用空点填充任何有缺陷的字符串，以便两个序列具有相同的长度，以满足汉明距离要求。我这样做有什么大问题吗，因为我关心的是换位的数量(而不是像Levenshtein那样的插入或删除)？我发现对于更长的序列，汉明距离比Levenshtein快得多。什么时候应该使用Levenshtein距离(或Levenshtein距离的导数)而不是便宜得多的汉明距离？Hamming距离可以被认为是两个序列之间可能的Levenshtein距离的上限，所以如果我比较两个序列的偏序相似性度量，

浏览 0提问于2011-01-04得票数 53

回答已采纳

1回答

关于word2vec most_similar()函数

text-mining、gensim、word2vec

我使用如下的most_similar()方法来获取与给定单词相似的所有单词： word,score= model.most_similar('apple',topn=sizeofdict) AFAIK，它的作用是计算给定单词和字典中所有其他单词之间的余弦相似度。当我检查单词和分数时，我可以看到列表中有负分数的单词。这是什么意思？它们是与给定单词具有相反含义的单词吗？另外，如果它使用余弦相似度，它是如何得到负值的？对于两个文档，余弦相似度在0-1之间变化。

浏览 2提问于2016-01-19得票数 5

1回答

Oracle中'TEXT‘按一定百分比匹配某项内容

sql、oracle、function、pattern-matching、match

我记得看到有人在Oracle中使用一个函数，他们可以在其中指定文本匹配的百分比。例如： 0123456789将与此匹配：1123456789为90%左右(我不是数学家，但希望您能理解……) 我想不出合适的关键字来找到我正在寻找的函数。有人能帮我解决这个问题吗？谢谢。它可能看起来像这样： select * from something s where matches(s.textcolumn, 'Matching Text') > .9

浏览 10提问于2012-05-22得票数 2

回答已采纳

1回答

使用一组长长的规则来规范公司名称

parsing、text-mining、data-cleaning

我们有一个很大的表(>30M行)，其中包含公司名称和其他特征。数据： Company_id Type Name Adress (more...) 497651684 8 Big mall Toys'rUs BigMall adress 468468486 1 McDonnnals WhateverStreet 161684314 8 Toys R Us Another street 546846846 1 BgKing BigMall2 ad

浏览 3提问于2014-12-12得票数 0

1回答

如何实现考虑到用户错误的过滤器？

javascript、reactjs、edit-distance

我有以下的伪码与过滤器的实现，它的工作符合用户输入的输入字段。当用户输入单词"tes"时，他会看到item "test"，如果他写"tesz"，那么他就不会看到条目。如果用户在一个字母单词中输入错误(输入错误)，仍然得到所需的结果，那么如何实现用户将允许的功能，因为用户经常会误写错误的字母。也就是说，我需要一个过滤器，如果你做了一个错误，还会显示一个合适的结果，我怎样才能达到这样的效果呢？在这种情况下，他们对任何复杂的计算算法都不感兴趣，但至少在一个字符中输入了一个错误。我的代码示例 import React, { useState }

浏览 6提问于2021-04-28得票数 1

回答已采纳

1回答

对于此任务，我应该使用哪种ML算法？

machine-learning、neural-network、data-science

我有一个包含症状和疾病的数据集。每种疾病都包含具有权重的症状(根据重要性)。问题是，在这种情况下，监督方法是不可能使用的，因为我没有测试集(我只是列出了症状和疾病之间的联系)。我已经使用了一种通过重要性计算匹配症状的方法，但如果症状与数据集中的症状不同，它就会失败。我想知道，如果我们选择不同但非常相似的症状，是否有可能训练一个能够理解不同症状之间隐藏联系的模型，并至少给出近似的结果。例如:流感有一种咳嗽，但人选择了干咳。该模型应考虑基于不同疾病的两种症状之间的相似性。如果您在文献或算法名称方面有任何建议，我将不胜感激。更新1:示例：支气管炎数据示例其主要思想是根据定义的症状

浏览 0提问于2020-11-09得票数 0

1回答

当我使用余弦相似度时，为什么我得到的邓恩指数是负值？

matlab、cluster-analysis、distance、cosine-similarity

我使用k-means对归一化数据进行聚类。我使用了不同的相似度矩阵，如欧几里得、曼哈顿和余弦，当我使用余弦相似度时，Dunn指数为负值。我读到过邓恩指数的取值范围从0到无穷大。使用余弦相似度计算Dunn指数是正确的吗？我用过this implementation of Dunn Index。

浏览 94提问于2019-06-12得票数 1

回答已采纳

2回答

给定每天只有事件ID标签(字母字符串)的事件序列，什么算法可以用来检测异常值序列？

clustering、outlier、distance、sequence、labels

例如，数据可能如下所示： Sequence 1: ["ABC", "AAA", "ZZ123", "RRZZZ45", "AABBCC"] Sequence 2: ["CBA", "AAA", "YY123", "LMNOP", "AABBCC"] Sequence 3: ["ABC", "AAA", "ZZ123", "RRZZZ45", "AABBCC"

浏览 0提问于2022-03-31得票数 1

回答已采纳

5回答

更好的模糊匹配性能？

python、performance、levenshtein-distance、fuzzy-comparison、difflib

我目前正在使用的方法get_close_matches方法来迭代15,000个字符串的列表，以获得与另一个大约15,000个字符串的列表最接近的匹配： a=['blah','pie','apple'...] b=['jimbo','zomg','pie'...] for value in a: difflib.get_close_matches(value,b,n=1,cutoff=.85) 每个值需要.58秒，这意味着完成循环需要8,714秒或145分钟。有没有其他的库/方法可以更快，或

浏览 2提问于2014-01-28得票数 4

2回答

使用Javascript在两个数据库表之间自动匹配/建议相似的列

javascript、node.js、reactjs

我正在尝试创建一个javaScript程序来查找两个数据库表之间的相似列。例如： Table1有Emp_Name, Emp_Id, Emp_Dept，而Table2有Name,Id,Department 在JavaScript中有没有现成的库可以帮助你做到这一点？我已经浏览了以下链接：但现在我更困惑了，因为这些库中的一些看起来并不完全匹配。

浏览 27提问于2019-11-23得票数 0

1回答

从数据库中删除相似数据

php、mysql、mysqli

我想从我的数据库中删除类似的数据。现在我可以从我的数据库中删除重复的数据并保留一个。 $sql = "UPDATE `clf_ads` SET `enabled`= '0' WHERE adid NOT IN (SELECT * FROM (SELECT MAX(adid) FROM clf_ads GROUP BY adtitle) x)"; if ($conn->query($sql) === TRUE) { echo "Record deleted successfully"; } else { echo "Error de

浏览 13提问于2018-12-11得票数 0

2回答

维基百科文章的字符串比较

php、data-mining、wikipedia

我正在为一个请求检索维基百科类别 http://en.wikipedia.org/w/api.php?format=json&action=query&prop=categories&cllimit=5000&titles=request 我下一步要做的是将每个类别的描述文章与一个字符串进行比较，我已经找到了哪个是最匹配的。我想找一个度量标准来计算两个文本之间的相似度，考虑到语义含义，你知道有什么库可以做到这一点，或者计算字符串之间的向量空间模型距离吗？例如，请求http://en.wikipedia.org/w/api.php?format=json&

浏览 0提问于2013-04-22得票数 1

回答已采纳

3回答

NLP算法计算最大5-6字句子间的相似度

machine-learning、python、nlp

我正在寻找一个相对简单的NLP algo，这将帮助我评估两个句子之间的相似性。这些句子通常在1-5个单词之间，大约. 。上下文：用户可以创建尽可能多的类别，他希望分组他的照片。我注意到这些类别中有很多是空的，当潜得更深一点时，我看到用户创建的许多类别几乎都有相同的名称，例如，法国对法国法郎夏季对夏季海滩和海滩(心脏表情) 一种假设是，他们创建一个带有拼写错误的类别，而不是删除，而是创建一个新的类别。目标：量化用户级别上高度相似的类别对的数量。所以我的问题基本上有两个方面：哪个简单的NLP算法可以很好地完成这项工作，而不需要像谷歌这样的公司使用某种凸性的神经网络。听说向量空间的余弦相

浏览 0提问于2022-04-01得票数 1

3回答

两个表之间的模糊匹配

oracle、fuzzy、record-linkage

我有两个表，其中包含客户信息，如姓名和地址。 ID Name Full Address 1 Anurag 123 CA USA 5001 2 Mike ABC CA USA 5002 3 Jason ZYZ TX USA 5003 4 Roshan HBC MS USA 5004 5 Tony UYS VT USA 5005 New_ID Name Full Address 111 Anurag CH 123 3 Floor CA USA 5001 112 Mike Martin A

浏览 3提问于2017-03-22得票数 0

1回答

在Apache Mahout中显示两个用户之间的pearson相关性相似度

mahout-recommender

有人知道如何在Apache Mahout中获取给定数据集的任意两个用户之间的相似度数值吗？

浏览 2提问于2014-12-20得票数 0

2回答

如何从语义上比较文本

computer-science、semantics

假设你有一堆书的描述。有什么技术可以使这篇文章相互比较，这样我就可以对具有相似主题的书籍进行分组。

浏览 2提问于2012-09-26得票数 1

回答已采纳

1回答

如何在excel中计算/测量文本的相关性？

excel、correlation

我知道我们可以用交叉相关来测量信号中的“相似”，但是我们如何计算文本中“相似”的百分比呢？例如: 1。“神奇狗的传说”2。“狗怪传奇”，这几乎是百分之百的相同，但洗牌。但配对时: 3。“狗狗令人敬畏的数字9”，它只有40%的一致性与句子1或2。

浏览 3提问于2018-01-08得票数 0

回答已采纳

1回答

归一化基于tf-idf计算的余弦相似度值

python、normalization、tf-idf、cosine-similarity

我计算基于余弦相似度的tf-idf矩阵： tfidf_vectorizer_desc = TfidfVectorizer(min_df=5, max_df=0.8, use_idf=True, smooth_idf=True, sublinear_tf=False, tokenizer=tokenize_and_stem) %time tfidf_matrix_desc = tfidf_vectorizer_desc.fit_transform(descriptions) #fit the vectorizer to text sim_desc = cosine_similarity(tfid

浏览 4提问于2016-06-14得票数 0

1回答

Elasticsearch中索引的新方法

elasticsearch

我想在Elasticsearch中定义一种新的索引方法，因此我将编辑tf idf方法。哪里可以找到TF-IDF elasticsearch的实现？为了实现新方法，我需要操作elasticsearch源代码中的哪些包？

浏览 1提问于2017-04-19得票数 0

9回答

如何在相似性度量和差异度量(距离)之间进行转换？

metrics、string-comparison、levenshtein-distance

有没有在相似性度量和距离度量之间进行转换的通用方法？考虑一个相似性度量，比如两个字符串共有的2-gram的数量。 2-grams('beta', 'delta') = 1 2-grams('apple', 'dappled') = 4 如果我需要将其提供给期望差异度量的优化算法，比如Levenshtein距离，该怎么办？这只是一个例子……我正在寻找一个通用的解决方案，如果有的话。比如如何从Levenshtein距离到相似性度量？感谢您提供的任何指导。

浏览 0提问于2010-11-01得票数 12

1回答

理解并解释建议

r、recommendation-engine

我正在尝试使用推荐实验室来构建一个UBCF并生成推荐。这个过程是可以的，预测似乎是有意义的。我需要的是向我的同行(商业和营销)解释为什么我要向那些用户推荐这些项目。我的代码是： library(recommenderlab) data(Jester5k) r <- sample(Jester5k, 1000) rec_ub <- Recommender(r[1:100],method="UBCF", param=list(normalize = "Z-score",method="Cosine", nn=3,minRatin

浏览 2提问于2015-02-18得票数 0

1回答

Spacy标记中的相似性度量

nlp、spacy

我正在尝试测量标记之间的相似性。我使用的是默认的en模型。当使用单数名词时，相似性度量按预期工作，但当使用复数形式的相同名词时，相似性度量返回零。 nlp = spacy.load('en') doc = nlp('apple orange') doc[0].similarity(doc[1]) 返回0.56189166448170025 doc = nlp('apples oranges') doc[0].similarity(doc[1]) 返回0.0 是否需要实现任何预处理步骤才能使度量正常工作？谢谢。

浏览 0提问于2017-09-22得票数 1

1回答

两个文件夹(1和2)与文档之间的余弦相似性，并为每个文档(文件夹2)找到最相关的文档集(在文件夹2中)。

python、text-mining

我有一个名为iir的文件夹，它有500个txt文件。我有另一个名为视频的json文件(带有字典结构)。我想计算:对于每一个500 txt文件，找到与所有视频的余弦相似性。在此之后，对每个txt文件的视频进行排序，并将该排名列表保存在另一个文件中。到目前为止，我能够读取所有的txt文件。这是代码： import gensim import glob # go to directory all_files = glob.glob("ExtratingConceptFromVideoScripts/iir/*.txt") # go to files indata = tuple(

浏览 0提问于2018-07-29得票数 1

回答已采纳

2回答

对模型中的多个字段执行全文搜索(Django 2.1)

django

我想对模型中的两个字段执行全文搜索。下面是我当前的代码： if 'keyword' in request.GET: search_term = request.GET['keyword'] vector = SearchVector('Title', weight='A') + SearchVector('Content', weight='B') articles = articles.annotate(similarity=TrigramSimilarity(vecto

浏览 29提问于2019-01-22得票数 1

回答已采纳

1回答

是否值得在postgres中使用全文搜索来查找简短的文本，如姓名、用户名、电子邮件？

postgresql、full-text-search

我开始研究Postgres全文搜索功能。但是在索引像电子邮件地址这样的东西时，我遇到了一些令牌器的问题。首先，文本搜索似乎是针对较长的文本的，其中搜索整个单词就可以了。当我的电子邮件地址被索引为一个单词时，它只能搜索前缀。但一种常见的情况是，在默认文本搜索索引失败的情况下，搜索company来查找user@some-company.org。我有种感觉，退回到'user@some-company.org' ILIKE '%company%'会是更好的选择。问题是:有没有人有一个很好的配置文本搜索的短字段，如电子邮件地址，用户名等，以取代ILIKE搜索，或者这

浏览 20提问于2019-11-28得票数 2

1回答

在php中类似的文本百分比

php、percentage、similarity

使用php代码可以很容易地找到两个字符串之间的百分比，我只是使用 int similar_text ( string $first , string $second [, float &$percent ] ，但假设我有两个字符串，例如： 1-药检失败后赞助商退出莎拉波娃 2-玛丽亚·莎拉波娃在澳大利亚公开赛中未通过药物测试使用similar_text工具，我得到了53.7%，但这没有任何意义，因为这两个字符串正在谈论“莎拉波娃”的“药物测试失败”，而这个比例应该超过53.7%。我的问题是:有任何方法可以找到两个字符串之间真正的相似性百分比吗？

浏览 4提问于2016-03-10得票数 1

4回答

php中基于百分比的字符串比较

php、string-comparison

我正在寻找一个PHP库，它可以让我比较两个字符串，并确定它们是否相似。例如： apple apple 100% apple aple 80% 以此类推。有什么想法吗？

浏览 0提问于2009-11-18得票数 0

1回答

如何匹配来自不同eCommerce来源的产品？提取产品属性

machine-learning、classification、e-commerce、text-extraction、mallet

这是我的第二个问题，所以，如果有任何错误，请道歉。我的主要目标是从不同的电子商务网站收集数据，然后比较它们之间的数据。要做到这一点，我需要匹配相同的产品从不同的网站。由于不同的站点编写标题的方式不同，我需要从标题中提取产品的属性才能正确匹配。我使用收集数据，但无法与来自不同站点的同一产品相匹配。我的尝试：首先，我收集品牌，模型等，然后以传统的方式与标题相匹配。但是它不能工作，因为它不能收集所有的模型名称进行比较。而且，不同类别的产品属性是不同的，而不是相似的。我正在努力寻找解决方案，这将适用于各种产品。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、照相机等) 我也尝试应用机器学习

浏览 0提问于2018-06-05得票数 1

回答已采纳

1回答

光谱聚类距离/相似度

cluster-analysis

所有关于谱聚类的文献都使用相似度矩阵作为谱聚类算法的输入。是否也可以使用成对距离矩阵？我还没有看到任何版本的频谱聚类代码会使用parwise距离。我在matlab中实现了谱聚类，它有一个函数pdist，这个函数的输出是成对距离矩阵。

浏览 0提问于2015-05-01得票数 1

1回答

尝试计算搜索词之间的相似度

algorithm、text、machine-learning

我想为在google上搜索的搜索查询计算某种相似度分数。这意味着，在其他事情中，单词的顺序并不一定重要。例如： “阿迪达斯蓝色鞋子”和“蓝色鞋子阿迪达斯” 应该被认为是完全相同的序列，而我认为在许多传统的距离算法中并非如此。我猜上面的例子可以用余弦相似度解决，但如果我有： “蓝色阿迪达斯鞋” 我想算法产生一个非常相似的距离，原来的“”阿迪达斯鞋蓝色“ 这样的算法存在吗？

浏览 0提问于2017-07-03得票数 0

1回答

如何使用python使用StanfordNER对命名实体进行聚类

python、nlp、nltk、stanford-nlp、named-entity-recognition

Stanford提供了NERs来检测POS标签和NERs。但是当我试图分析的时候，我正面临一个问题。这句话如下： Joseph E. Seagram & Sons, INC said on Thursday that it is merging its two United States based wine companies 下面是我的代码 st = StanfordNERTagger('./stanford- ner/classifiers/english.all.3class.distsim.crf.ser.gz',

浏览 3提问于2018-06-07得票数 1

回答已采纳

1回答

( model.docvecs.similarity_unseen_docs(document_1，document_2获得负分数)

python、nlp、nltk、gensim

我试图找出两个文档，即'document_1‘和'document_2’之间的相似性。我正在使用Doc2Vec Gensim的来寻找相似性评分。 score = model.docvecs.similarity_unseen_docs(trainedModel, document_1, document_2) print(score) 分数为负值的地方。这里，document_1和document_2是NLTK的word_tokenize()的结果。当我们试图找出两个"tokenized“文档之间的相似性时，负分数意味着什么？ P.S:对模型进行了10个文档(每个2

浏览 2提问于2019-11-15得票数 0

1回答

向现有余弦相似度矩阵添加新元素

python、cosine-similarity、trigonometry

我用sklearn.metrics.pairwise中的cosine_similarity计算了一个余弦相似度矩阵。 Matrix: 2414514 413915 419480 473104 534621 609406 654913 654914 \ 2414514 1.000000 0.0 0.0 0.0 0.0 0.0 0.755929 0.755929 413915 0.000000 1.0 0.0 0.0 0.0 1.0 0.000000 0.00000

浏览 9提问于2019-04-02得票数 0