字符串匹配模糊匹配算法_模糊匹配算法_字符串模糊匹配算法 - 腾讯云开发者社区

、

我得到了一个array_subscribed_players，并且我正在检查这个数组是否包含一个字符串： array_subscribed_players.include?(subscription.user.full_name_inversed.downcase.strip) 我正在寻找一种方法，即使我给出的字符串与array_subscribed_players中包含的字符串不完全匹配，也能使该表达式返回true。假设有一个或两个不同的字母，或者有一个额外的或更少的字母。

浏览 1提问于2015-09-16得票数 0

1回答

如何成功地验证两个名字是相同的？

、

我已经完成了订单验证，在这里我验证了帐户名是否与账单名相匹配。目前我正在寻找100%匹配。在许多情况下，这种验证失败，因为这两个名称略有不同。你建议我怎么用Python做这样的事？我正在考虑检查帐户名名是否是账单地址的一部分，而姓氏也是如此。或者可能只检查名字的首X字符和姓氏。最好的做法是什么？谢谢

浏览 2提问于2015-12-30得票数 0

回答已采纳

5回答

确定两个字符串匹配概率的最佳实践

、、、

我需要编写代码，以确定当其中一个字符串可能包含与第二个字符串的小偏差时，两个字符串是否匹配。“南非”诉“南非”或“英格兰”诉“恩甘德”。目前，我正在考虑以下方法确定字符串1中与字符串2中字符匹配的字符百分比。通过将1的结果与两个字符串长度的比较来确定匹配的真实概率，例如，虽然"SA“中的所有字符都在”南非“中找到，但并不是很可能匹配，因为"SA”也可以在一系列其他国家的名称中找到。我希望听到执行这种字符串匹配的当前最佳实践是什么。

浏览 4提问于2010-02-22得票数 4

回答已采纳

2回答

python中的名称匹配

、、

我们有一个第三方“工具”，它查找相似的名称，并分配两个名称之间的相似性评分。我应该尽可能地模仿这个工具的行为。在互联网上搜索之后，对距离method.Used 也进行了同样的尝试。 matches = process.extractBests( name, choices, score_cutoff=50, scorer=fuzz.token_sort_ratio, limit=1 ); 它给出了接近工具result.However的结果，几乎没有异常值--如下所示。经过互联网上的进一步搜索，我了解到，进一步的改进将需要实现机器学习

浏览 0提问于2019-05-27得票数 7

2回答

Lucene默认模糊匹配实现的替代方案

、、

Lucene模糊匹配使用一种基本的editDistance算法来实现模糊匹配。对于Lucene，还有使用其他相似性度量的模糊匹配的其他实现吗？他们也应该识别同音异义词。另外，请比较lucene的各种模糊匹配方法。

浏览 0提问于2010-05-18得票数 1

1回答

邮递员-关闭匹配算法

我正试图用Postman构建一个像样的模拟API，我偶然发现了它的。是否有办法关闭它，以便，例如，当我针对错误的查询params，或者仅仅是错误的URL时，它确实返回一个404 目前的答复来自 my/api/path/endpoint?myParam=Test 即使当我提交给 my/api/path/endp 这是我不想要的。

浏览 0提问于2019-04-23得票数 0

回答已采纳

1回答

哪些Python库最适合匹配测试字符串

、、、

哪些Python库最适合匹配测试字符串？我有一张新西兰奥克兰郊区的清单我也有几百万行数据，其中地址有一个郊区字段，但这些都是以自由形式键入的。这意味着他们有拼写错误，以及各种奇怪的问题。(比如使用MT而不是Mount，以及数据输入操作员使用非标准约定之类的东西) 我想使用python找到一种方法来找出每个条目与哪个郊区相关。但我甚至不知道从何说起。(我仍然处于相当基本的Python级别) 我曾想过可能会给每个字母分配数字，然后尝试围绕kNN匹配构建一些函数，其他人建议以某种方式使用Jaccard相似性。我想要匹配的郊区列表： ['ABBOTSFORD', 'ACA

浏览 6提问于2018-05-15得票数 0

3回答

根据字典改进模糊字符串匹配的性能

、

因此，我目前正在使用进行模糊字符串匹配，其中我有一个大字典要比较(字典中的每个条目都有一个关联的非唯一标识符)。我目前正在使用hashMap来存储这个字典。当我想进行模糊字符串匹配时，我首先检查字符串是否在hashMap中，然后迭代所有其他可能的键，计算字符串相似度并存储具有最高相似度的k，v对。根据我使用的词典，这可能需要很长时间( 12330 - 1800035个条目)。有没有办法让它更快或者更快呢？我目前正在编写一个内存函数/表，以此作为加速的方法，但还有谁能想到更好的方法来提高速度呢？也许是不同的结构或者我遗漏的其他东西。在此之前，非常感谢，内森

浏览 4提问于2011-02-09得票数 12

回答已采纳

1回答

Rails:在DB中检查重复项的方法？附属数据提要

、、、、

我有一个关于联盟数据提要的问题。例如，亚马逊或其他电子商店的合作伙伴。我试图导入他们的产品数据，但希望避免重复，如果两家商店销售相同的产品。例如，Amazon：Product Title: iPhone 5 16GB Black 是另一家使用Product Title: iPhone 5 16GB的商店。他们应该被列为一种产品，现在假设我有10家商店销售iPhone 5。当然，它们是更多的参数。不过，我仍然需要一个算法来防止这种情况发生。类似于产品参数的相似匹配算法。有没有人有这方面的经验，并能告诉我，什么样的算法可以建议这种情况下？详细的参数列表可以在这里找到GET Produc

浏览 1提问于2014-07-31得票数 0

回答已采纳

3回答

利用SQL中两列之间的模糊匹配创建真/假列

、、

首先，在详细说明我正在处理的问题之前，让我告诉您，我目前是一个SQL新手，因此，只要有可能，我都会欣赏到简单的解释和简单的解决方案。我现在拥有的是：考虑到这个查询： SELECT table1.id as id, table1.tag1 as tag1, table2.tag2 as tag2, table2.tag2 like '%'+table1.tag1'%' as match FROM table1 INNER JOIN table

浏览 0提问于2019-09-13得票数 0

回答已采纳

2回答

部分字符串匹配算法

、、、、

我正在尝试找出是否存在能够实现以下功能的算法：给定一个字符串列表： {"56B99Z", "78K80F", "50B49J", "28F11F"} 并给出一个输入字符串： "??B?9?" 然后，算法应该输出： {"56B99Z", "50B49J"} 在哪里？都是不知名的字符。我认为在节点之间添加额外链接的trie-tree可以工作，但如果以前已经这样做过，我不想重新发明轮子。

浏览 21提问于2021-03-18得票数 1

1回答

火花放电数据的模糊搜索

、、

我有一个大型csv文件(>9600万行)和七列。我想对其中一个列进行模糊搜索，并检索与输入字符串相似程度最高的记录。这个文件是由spark管理的，我通过pyspark将它加载到一些dataframe中。现在，我想使用像fuzzywuzzy这样的方法来提取与最佳匹配的行。但是，fuzzywuzzy函数提取返回一些我无法使用的内容： process.extract("appel", df.select(df['lowercase']), limit=10) 结果：[(Column<'lowercase'>, 44)] df是pys

浏览 9提问于2022-09-27得票数 0

1回答

如何使用kd-tree来确定字符串相似度？

、、、

我正在尝试利用k近邻来解决字符串相似性问题，即给定一个字符串和一个知识库，我希望输出与给定字符串相似的k个字符串。有没有任何教程可以解释如何利用kd-tree来有效地执行字符串的k最近邻查找？字符串长度不超过20个字符。

浏览 1提问于2011-04-18得票数 7

回答已采纳

1回答

我需要一个例程来检测相似但不相同的字符串

、

我有一个字符串列表，其中一些在我之前的版本中已经修改过了。一些变化是微不足道的(空格，一个单词的间隔，等等)。我想检测那些只有“微小”差异的字符串，这样我就可以尽可能地尝试使用较旧的翻译。我说的“细微差别”是什么意思？我不会知道，直到我开始使用数据库。当两个字符串相似但不相同时，您是否知道任何可调的例程？有没有例程会返回一个数字来表示两个字符串的不同程度？

浏览 2提问于2012-05-02得票数 11

回答已采纳

1回答

为什么msgmerge将我的一些翻译标记为模糊？

、、、、

我使用msgmerge将我现有的po文件与更新的pot文件合并。 msgmerge test-zh_TW.po test.pot > test.po 我发现在msgmerge之后，一些字段被标记为fuzzy，为什么呢？ (我想知道原因，我知道我可以通过-N让他们失望，但是为什么这是第一位的默认呢？)

浏览 5提问于2014-11-26得票数 3

1回答

从多个片段拼凑序列的算法

、、

我正在开发一个实时嵌入式系统。我试图创建一个详细的时间分析。我收集了运行时数据，记录了每个中断的开始和停止时间。每一次数据突发看起来都像这样 ISR# time ----- ---- 1 34 end 44 4 74 3 80 end 93 end 97 ... 我的输出通道带宽有限，我的高精度定时器很快就会溢出一个字，所以我用大约150微秒的脉冲串收集数据，然后慢慢地流出来。从这些数据中，我能够收集每一次中断所花费的时间，以及通话和抢占的次数。我想做的是把一个典型帧的完整执行序列组合在一起，大约2毫秒长。我突然意识到

浏览 6提问于2010-10-28得票数 1

1回答

Java :检查两个文本文件的等价性？

有两个文本文件。我希望知道什么是最简单的JAVA方式来检查它们的内容是否是等价的。在shell上，我通常使用diff命令： $ diff 1.txt 1.same.txt # nothing is shown if 1.txt and 1.same.txt have the same contents $ diff 1.txt 2.txt 4a5,6 > 20, -, 22.0 > 10, 10.0, -

浏览 2提问于2015-03-30得票数 1

回答已采纳

1回答

在搜索rest数据库时，我是否可以使用regex查找个人姓名的键入或替换拼写？

、、、

使用senate.gov网站的游说披露法案(LDA) API，我能够创建一个数据库，其中包括游说国会办公室特定候选人的游说者或组织提供的每一个个人捐款。然而，政府的LDA数据是相当没有条理的，因为填写表格的游说者通常会错误地拼写政客的名字或使用交替拼写。例:说客可以给同一个候选人捐款，但可以写信给收款人，如约翰·史密斯、乔纳森·史密斯、乔恩·史密斯等。因此，我试图使用正则表达式来确保我的Python程序不会遗漏任何排印或替换拼写. 这是我以前做过的，但是没有考虑到交替拼写(我不想每次都手动输入约翰·史密斯、乔纳森·史密斯、乔恩·史密斯，我宁愿用regex来做:J*n Smith ) im

浏览 6提问于2022-06-02得票数 2

1回答

用于Lucene FuzzySearch中操作的自定义编辑距离权重

、、、、

我遇到了这个python库，它允许为不同的操作(插入、替换、删除和转储)指定不同的成本/权重，这对于检测和纠正击键错误非常有帮助。我一直在通过lucene库进行搜索，它使用Damerau-Levenstein距离来检查是否支持这样的操作，以便为不同的操作指定不同的成本/权重，但无法找到任何操作。如果有办法在Lucene模糊搜索中指定我们的定制成本/权重，请告诉我。提前感谢！

浏览 11提问于2022-11-06得票数 0

1回答

如何在运行模糊字符串匹配逻辑的2m行上在python中进行多处理？当前的代码非常慢。

、、、

我对python很陌生，我正在运行一个fuzzywuzzy字符串，该字符串与列表中的逻辑匹配，其中包含200万条记录。代码正在运行，它也提供输出。问题是它是极其慢的。在3小时内，它只处理80行。我希望通过使其同时处理多行来加快速度。如果它有帮助的话--我正在用16 it内存和1.9 GHz双核CPU在我的机器上运行它。下面是我正在运行的代码。 d = [] n = len(Africa_Company) #original list with 2m string records for i in range(1,n): choices = Africa_Company[i+1:n]

浏览 2提问于2017-01-10得票数 2

3回答

有效的“序列联盟”比较两个集合列表以找到匹配- python

、、

我正在尝试比较两个集合列表(或列表列表)，并且很难找到一个有效的解决方案。给出的是两个长度不同的列表，每个位置可能有不同的大小集。集合的大小介于1-6个整数之间，列表的大小对于较大的元素大约是4000个元素，对于较小的元素大约是100个元素。 list_1= [{42, 189, 31}, {32, 75, 189}, {42, 31}, {100, 63}, {75, 37}] list_2=[{75, 37}, {42, 37}] 然后，我希望在数组中找到两个列表之间最大的重叠点，并计算每个集合之间的交集中有多少个元素。在这种情况下，最好的对齐方式是在list_11:3，其中有两个重叠

浏览 1提问于2020-03-20得票数 0

2回答

如何可靠地查找与键入的字符串相似的字符串

、、、

我有一个界面，用户将输入公司的名称。然后，它将他们输入的内容与数据库中的当前条目进行比较，如果发现类似的条目，它会向他们提供选项(以防他们拼写错误)，或者他们可以单击一个按钮，以确认他们输入的内容肯定是新的和独特的。我遇到的问题是，它不是很准确，经常会出现几十个“相似”的匹配，而这些匹配根本不是那么相似！这是我现在拥有的，第一个大函数，我没有做，我不清楚它到底是做什么的。有没有更简单的方法来获得我想要的东西？ // Compares strings and determines how similar they are based on a nth letter split com

浏览 0提问于2012-04-15得票数 0

回答已采纳

3回答

比较字符串，如果有小的拼写错误，则返回true

、、、、

我有函数比较用户输入与xml文件中的字符串，但如果有空格或拼写错误，它返回false，我希望它返回true，如果差异是一个字符 //xml file like this <xmlString>HELLO</xmlString> <result>somthing</result> 和像这样的脚本文件 var userInput="Jello"; if (userInput.toUpperCase().indexOf(xmlString) >= 0){ //this should return true and execu

浏览 3提问于2016-03-21得票数 0

2回答

mongodb近似字符串匹配

、

我正在尝试使用mongo db为我的食谱网站实现一个搜索引擎。我正在尝试向用户显示预先键入窗口小部件框中的搜索建议。我甚至尝试支持拼写错误的查询(Levenshtein distance)。例如:每当用户输入'pza‘时，提前输入应该显示’pza‘作为建议之一。如何使用mongodb实现这样的功能？请注意，搜索应该是即时的，因为搜索结果将由预先键入的小部件获取。我将对其运行搜索查询的集合最多有100万个条目。我想实现levenshtein距离算法，但这会降低性能，因为集合很大。我在mongo 2.6中读到的FTS (全文搜索)现在非常稳定，但我的要求是近似匹配，而不是FTS

浏览 2提问于2015-01-16得票数 24

回答已采纳

1回答

如何从文本文件中提取实体的自定义列表？

、、、、

我有一张清单，上面有这样的实体： ["Bluechoice HMO/POS", "Pathway X HMO/PPO", "HMO", "Indemnity/Traditional Health Plan/Standard"] 这不是详尽无遗的列表，还有其他类似的条目。如果存在，我希望从文本文件(包含30页以上的信息)中提取这些实体。这里的关键是这个文本文件是使用OCR生成的，因此可能不包含确切的条目。例如，它可能有： "Out of all the entries the user made, BIueChoise H

浏览 5提问于2021-05-28得票数 2

回答已采纳

4回答

如何从不包含撇号的搜索字符串中返回包含撇号的查询结果

、、、

我有一个简单的应用程序，它允许用户输入一个字符串来搜索数据库中的名称。服务器端是ColdFusion 7，我遇到的问题是像"obrien“这样的查询不会返回名称为”o‘’brien“的条目。我想我想要的是模糊匹配能力。在做了一些研究后，我也遇到了全文搜索，这可能是我正在寻找的；但是，我不确定两者之间的区别。ColdFusion有一个名为verity的服务，但似乎我必须首先查询所有数据库，然后对其进行索引--这听起来代价很高。有没有一种内置的方法可以在ColdFusion中进行模糊匹配或全文搜索，而无需首先查询整个数据库？如果没有，在执行全文搜索时，是否必须指定索引？例如，obrie

浏览 5提问于2013-04-09得票数 2

回答已采纳

2回答

从字符串列表中搜索模糊子字符串

、、、

好的，我看到了很多关于模糊字符串匹配，Levenstein距离，最长的公共子字符串的帖子，等等。他们似乎都不适合我想做的事。我正在从各种web服务中提取产品结果，从这些服务中我可以为该产品建立一个大的名称列表。这些名称可能包括一堆可变的垃圾。下面是一些来自SearchUPC的例子： Apple 60W magsafe adapter L-shape with extension cord Original Apple 60W Power Adapter (L-shaped Connector) for MacBook MC461LL/A with AC Extension Wall Cord

浏览 4提问于2013-04-30得票数 2

2回答

将相似文档映射到相同值的文本文档的散列函数。

我有一个网站，可以处理用户提交的文本文档(通常为10-100页)。每次用户提交文档时，我都想存储文档的散列，但我希望类似的文档映射到相同的哈希值。实际上，我想知道用户是重新提交略有更改的文档还是重新提交新文档。我不存储文档，所以我只能比较散列值，也不能将文档相互比较。我读过很多关于MinHash和LSH的文章，但这些都是基于拥有大量文档的语料库，然后在语料库中找到类似的文档。我认为这些不适用于我，因为我需要一次计算单个文档上的散列向量，而不知道其他文档。在某些方面，我觉得这应该是一个简单的问题。就像计算一袋单词向量的散列，但我很难找到一个好的方法来实现这一点。我的比较是基于文本而不是意

浏览 0提问于2019-09-29得票数 2

1回答

NLP分组词类别

假设我有一本字典： {apple:large apple, apple:red apple, apple:aple, orange:mandarin, orange:orang, orange:blood orange} 等等..。然后我想用键替换一个大的条目文档。然而，偶尔会出现一个新的值，即{apple:green apple} 是否有一种方法，可以用相应的键替换所有值，但也可以替换“关闭”值，比如如果它们出现时给定的值？示例文档： var1 _____ aple apple orange Apple Red apple gren Apple blood Orange orang v

浏览 0提问于2018-02-27得票数 1

回答已采纳

2回答

根据特殊字符区分SQL Server中的两个相似条目

、、

我在SQL server中的表中有一些条目，如下所示。 2934046 Kellogg’s Share Your Breakfast 74672 2407522 Kellogg?s Share Your Breakfast ACTIVE 2015-09-01 9999-12-31 2934046 Kellogg?s Share Your Breakfast 74672 2407522 Kellogg?s Share Your Breakfast ACTIVE 2015-09-01 9999-12-31 另一个例子可能是 2939508 UOL Ação Social

浏览 1提问于2016-09-11得票数 1

4回答

近似字符串匹配

、、、

我知道这个问题已经被问了很多次了。我想要一个关于哪种算法适合近似字符串匹配的建议。该应用程序仅专门用于公司名称匹配，而不适用于其他内容。最大的挑战可能是公司的最终名称部分和简短的命名部分示例: 1. companyA pty ltd. vs companyA pty。有限公司vs companyA 2. WES工程vs W.E.S.工程(极其罕见) 你认为Levenshtein编辑距离足够吗？我正在使用C# 向您致敬，Max

浏览 0提问于2010-11-18得票数 9

回答已采纳

4回答

查找两个字符串有多相似

、

我正在寻找一个算法，需要两个字符串，并会给我一个“相似的因素”。基本上，我将有一个输入，可能是拼写错误，字母转换等，我必须找到最接近的匹配(Es)的列表中的可能值，我有。这不是为了在数据库中搜索。我将有一个500左右的字符串的内存列表，所有的30个字符，所以它可以比较慢。我知道这是存在的，我以前见过，但我不记得它的名字了。编辑:谢谢你指出利文希丁和哈明。那么，我应该实现哪一个呢？它们基本上测量的是不同的东西，两者都可以用于我想要的东西，但我不确定哪一种更合适。我读过这些算法，Hamming看上去明显更快。因为两者都不能检测到两个字符正在被转换(即。乔丹和约德兰)，我相信这将是一个常

浏览 2提问于2009-02-23得票数 39

回答已采纳

3回答

如何计算模糊字符串匹配中的分数？

、

我想知道计算两个字符串之间模糊匹配分数的数学逻辑和公式。假设我有两个字符串s1和s2，我想在python中使用模糊匹配。我知道像fuzzywuzzy这样的python库可以做到这一点。但我想知道模糊匹配方法和比率计算背后的精确数学和逻辑。

浏览 2提问于2020-10-17得票数 0

回答已采纳

1回答

R中的Regex作为全德达的一个列表

、

这里是新手。我正在使用包quanteda进行一些文本分析。基本上，我要做的是把所有的单词按照regex模式child|(care)基本上捕捉任何文本，其中包括任何单词“儿童”或“照顾”。为此，我可以创建一个列表，然后使用字典函数： childcare_list <- c("child","care") word_dict <- dictionary(list(childcare = childcare_list))。但是，我如何将regex合并起来，并对其他模式执行此操作，这些模式将像第一行那样繁琐地手工键入？例如，我可能想捕捉到以下内容

浏览 0提问于2021-04-30得票数 1

1回答

如何使用边界矩形纠正OCR分割错误？

、、、

我将tesseract用于OCR，并注意到，有时会出现分割错误，“显然”属于一起的字符会被分割成单独的字符串。根据在一个文本行中发现的字符列表及其边界框，以及初步的OCR结果表明，这些字符中的哪些属于一个单词，我可以应用哪些算法来纠正分割错误或验证结果？所以这是可用的数据： List<Word> words; for(Word word : words){ for(Char c : word.getChars()){ char ch = c.getValue(); Rectangle rect = c.getRect(); } }

浏览 0提问于2012-04-18得票数 5

回答已采纳

1回答

正则表达式以精确匹配一个单词，但接受一个字母的错误

、

我想知道是否有一种方法可以在javascript中使用regex匹配单词，但它可以接受一个拼写错误(一个字母更改，一个丢失的字母，或者多一个字母)。示例。这里我有一个精确的匹配： function isWordInSentence(s, w) { s = s.toLowerCase(); w = w.toLowerCase(); return new RegExp('\\b'+w+'\\b').test(s); } var word = 'bird'; console.log(isWordInSentence(

浏览 26提问于2018-06-08得票数 0

1回答

如何在R中使用agrep输出特定长度的字符串

我有一堆DNA序列。我想要匹配序列的一部分，并且想要返回直到特定长度的匹配 dataframe df包含以下列： V1和V2 >chr1:61695-62229 aattccaagagtattattgcaccaaaaggcatggacttaaaattcttgatacatgatttcaaaatattttctttaaggtttgaatcagtctatattccctccagcagcgtataaaagtgccaatttctctgatccttagccagtttgggtaataataattgtaaaacttttttttctttttttttgagacagagtctccctctgtcgcca

浏览 0提问于2015-10-31得票数 0

1回答

从大列表Ruby中查找名称变体

、、、、

我有一个大的单词列表--大概300-600个单词--我想让我的用户在我的用户开始输入一个单词的时候，这个应用程序推荐它从我的列表中找到的单词，这些单词接近那个人的拼写。有点像自动完成，但是单词列表是动态的，并且是特定于该用户的。关于我如何做到这一点，有什么宝石或技术建议吗？

浏览 3提问于2016-06-28得票数 1

回答已采纳

1回答

Python -按前缀重新分组字符串

、

我有一个包含公司名称列的数据集，我必须将它们重新分组到公司组中。例如:戴尔英国、戴尔法国、戴尔美国=>戴尔集团数据不干净，某些单元格可能包含点或拼写错误等错误。我尝试了一些东西，比如模糊比较，但有时组前缀很小，比如3M组，名字的结尾更长。你有没有一些曲目给我？谢谢并为我的英语道歉数据： import pandas as pd from fuzzywuzzy import fuzz import pprint import re df = pd.read_csv("data2.csv", nrows=100) l = list(df["SUPPLIER_

浏览 2提问于2019-11-13得票数 0

1回答

有没有办法在GNOME Shell的应用程序屏幕中获取“模糊搜索”？

、、

在过去，像Synapse或Docky这样的初学者/搜索应用程序具有对文件、应用程序、文件夹等进行模糊搜索的强大功能。不幸的是，GNOME Shell的应用程序屏幕中的搜索不支持它。有办法改变这种状况吗？

浏览 0提问于2020-12-30得票数 0

回答已采纳

8回答

Java中的模糊字符串搜索库

、、

我正在寻找一个用于模糊字符串搜索的高性能Java库。有许多算法可以找到类似的字符串，Levenshtein距离，，n克等. 存在哪些Java实现？对他们有利还是不利？我知道Lucene还有其他的解决方案或者Lucene是最好的吗？我发现了这些，有人有经验吗？

浏览 24提问于2008-11-29得票数 80

1回答

匹配2个具有次要差异的字符串

、

我想知道是否有人知道一个好的算法来匹配2个字符串，接受细微的差异，例如：第一个单词是要与第二个字符串进行比较的第一个字符串。 EX1: hellos - hello EX2: Hello - hello EX3: Helo - hello EX4: ello - hello EX5: I own iphone - i own a iphone EX6: I beleive in god - i believe in god

浏览 0提问于2011-12-14得票数 1

回答已采纳

1回答

Python创建一个用于NLP分析的自定义字典

、、、

我对Python相当陌生。我想要创建一个自定义字典，以便将混乱的公司名称的长列表(1Mil+行)合并为干净的名称。我能用这个包吗？例如:我有下面的交易数据和商人的名字。我想创建一个自定义字典，这样我就可以把商人的名字分类为干净的了。美国Eagle#12455112 ->美国鹰美国Eag -->美国鹰 //#7555Banana Rep -->香蕉共和国纽约H&M --> H&M H&M奇戈--> H&M

浏览 0提问于2018-03-23得票数 1

4回答

使用已知算法比较两个字符串

、、、

我试图使用一些著名的算法来比较两个字符串(产品名称)，比如和的不同解决方案库(使用获得最佳结果)。两个字符串是： iPhone 3gs 32 GB黑苹果iPhone 3 gs 16 gs黑色 Levenstein在整个字符串上的工作非常糟糕，如果某些单词按不同的顺序排列(从算法的工作方式来看)，所以我试着逐个实现比较。我面临的问题是如何检测与空间char、('3gs'->'3、gs、、32 GB'->'16GB').相类似的“单词” 我的代码比较短的字符串(单词计数，如果==那么str.length)和长字符串。单词被分

浏览 3提问于2013-08-23得票数 0

2回答

什么样的算法(S)可以实现合理的下一个单词预测？

、、、

实现“下一个单词预测”的好方法是什么？例如，用户输入"I am“，系统建议将"a”和"not“(或可能的其他词)作为下一个单词。我知道一种方法，它使用马尔可夫链和一些训练文本(显然)来或多或少地实现这一点。但我在某些地方读到，这种方法很有限制性，适用于非常简单的情况。我了解神经网络和遗传算法的基本知识(虽然它们从来没有在一个严肃的项目中使用过)，也许它们会有所帮助。我想知道，如果给出适当的培训文本(例如，报纸文章和用户自己的打字)，是否有任何算法可以为下一个单词提供合理的适当建议。如果不是(链接到)算法，一般的高级方法来解决这个问题是受欢迎的.

浏览 0提问于2012-05-12得票数 10

6回答

模糊搜索算法(近似字符串匹配算法)

、、、、

我想创建一个模糊搜索算法。然而，经过几个小时的研究，我真的很挣扎。我想要创建一个算法，对学校名称列表执行模糊搜索。，这就是我到目前为止所看到的：我的大部分研究一直指向Google和Stackoverflow上的“字符串度量标准”，例如： Levenshtein距离 Damerau-Levenshtein距离 Needleman-Wunsch算法然而，这只是给出了类似的2字符串是什么样子的分数。将其实现为搜索算法的唯一方法是执行线性搜索，并对每个字符串执行字符串度量算法，并返回分数超过某一阈值的字符串。(最初，我把字符串存储在trie树中，但这显然无助于我在这里！)

浏览 17提问于2015-09-01得票数 70

1回答

有效的MySQL搜索100万行

、、、

目前，我在我的FULLTEXT数据库上使用MySQL索引，并使用简单的查询 MATCH (movie) AGAINST("City of Gold") 这是目前的工作，它正在从数据库中选择正确的行。但是现在，我遇到了一些问题，比如Cidade de Deus Of of ，这是一个非常接近的变体，例如，City of Gold DVDDrip 我的问题是，匹配正确行的最佳搜索算法是基于数据库中最接近的最大匹配。我的想法：我天真的想法是，是否有任何内置的函数或算法来匹配与数据库匹配并返回结果的最大字数。我遇到过狮身人面像，但我不确定它是否解决了上述问题，还是对它来说也

浏览 2提问于2015-05-10得票数 0

回答已采纳

2回答

如何对一组非常大的地址进行清理

、

我有一个数据集，其中有大量的地址。问题在于，许多地址虽然相同，但并没有以相同的方式记录下来。所以我想找到这些相似的地址，并从重复的数据中清理我的数据。有什么标准的方法或算法可以帮助我吗？我该如何解决这个问题？

浏览 0提问于2016-06-25得票数 2

1回答

SQL -两个长度不同的字符串之间的相似性

、、、、

我有一个Server产品表，每个产品都有一个在我们的网站上公开的描述。我想防止，或至少警告我们的用户，当一个描述太类似于另一个产品的描述。每种产品的描述长度都会有很大的差异。我想要查询产品的描述，其中包括重复/相似的段落/块之间的文字。也就是说，String A有一组独特的内容，但是共享一个类似/相同的段落w/ string B。然而，我不确定哪种相似算法最好使用：和算法似乎只适用于短字符串。我不确定是否很好地考虑到了很大的差异。也就是说，它似乎忽略了两个字符之间的潜在空间，找到了任何类似的组合序列。听起来有点像我想要的，但我不只是在寻找重复的内容w/细微的差异。我也在

浏览 2提问于2013-09-04得票数 8

1回答

视差图像的灰度范围不断波动。

、、

我一直致力于立体摄影测量，以便使用OpenCV找到深度数据。我进行了校准，并获得了内部参数、外部参数和失真参数，以找到视差图。使用这些参数，我对图像进行了校正，并使用它们找到了视差图。但物体的视差图中的灰度一直在从低到高的值波动，即在0-255之间波动。我一直试图通过改变照明条件和在此基础上重新校准相机来解决这个问题，但它仍然在发生。我不明白我应该改变什么参数才能得到一个合适的视差图。在这方面任何形式的帮助都是非常感谢的。我附上了一张图片，里面方形盒子的颜色一直在波动，即使它在同一个平面上，离相机的距离也是一样的。imagelink 视差图的代码如下： def depth_map(self，

浏览 62提问于2020-12-02得票数 0