将字符串替换为最频繁的模糊匹配

文章/答案/技术大牛

发布

1回答

r、stringdist

我有一个非结构化名称的数据帧，我想在一列中创建一个清理名称的'master‘列表，在另一列中创建所有变体。我正在使用stringdist包。|dot | 0.0000000| 12|您可以看到，在clean列中，有两个条目分别对应于"dog“和"dogg"，我希望将这两个条目折叠为一个条目(dog)，因为字符串"dog”出现得更频繁。| |dog |dogy | 0.083333

浏览 8提问于2020-02-06得票数 2

回答已采纳

2回答

SQL -确定列中出现频率最高的单词

sql-server、tsql、vba、frequency-analysis

有没有一种简单的方法可以使用T-SQL或VBA确定列/字段中出现频率最高的单词？我正在为两个给定的记录集开发一个模糊匹配系统，并希望在最频繁出现的单词被删除的情况下生成一个匹配字符串。由于数据来自客户关系管理数据库，因此将删除"limited“、"ltd”、"plc“和”customer“等术语。

浏览 2提问于2011-12-01得票数 4

回答已采纳

1回答

基于最频繁字符计数的Java字符串操作

java、string、algorithm、data-structures

在最近的采访中，我被要求为下面的字符串操作程序找到解决方案。给出字符串s，用1表示最频繁的字符，以01表示第二最频繁的字符，用001表示第三大字符等等。如果字符串是"marrymyyyr"，那么输出应该是：每个字符的查数为m:2，a:1，r:3，y:4最高计数数为4，因此，使用该计数的字符应打印1代替该字符，以计数3的字符作

浏览 0提问于2016-02-05得票数 0

回答已采纳

6回答

PHP:查找出现在字符串或数组中的最频繁的单词

php、string、function

我知道我可以用这种方法在数组中找到最常见的元素：$array = array('good', 'good', 'good', 'cool'); $array = array_keys($array);如果我想找出最频繁的单词而不是最频繁的

浏览 4提问于2012-04-02得票数 2

回答已采纳

2回答

字符串中的模糊模式搜索:d-不匹配的最频繁模式

python、bioinformatics

我希望找到所有1)字符串中最频繁的模式，2)最多有d个不匹配的模式。对于这个给定的任务，我实现了一个函数，该函数计算给定模式在具有d不匹配的字符串中出现的次数。该算法的思想是基于使用字符串子模式的位掩码和给定模式的位掩码的卷积。它会产生正确的结果。number_of_occurances_with_at_mo

浏览 0提问于2013-11-05得票数 2

4回答

带项权值的模糊字符串匹配

python、string、information-retrieval

我正在开发一个应用程序，它试图将一组潜在“混乱”的实体名称与参考列表中的“干净”实体名称相匹配。我一直在使用编辑距离和其他常见的模糊匹配算法，但我想知道是否有更好的方法允许术语加权，比如在模糊匹配中赋予公共项较少的权重。考虑这个例子，使用Python的difflib库。，所以这两个示例在完整字符串上的得分都很高。我正在寻找关于如何将</

浏览 6提问于2012-10-06得票数 16

1回答

PySpark将较少频繁的项替换为最频繁的项

apache-spark、pyspark、apache-spark-sql、spark-dataframe、apache-spark-mllib

我在一个数据框架中有一个分类栏，其中包含一些级别，现在我想用最频繁的级别替换那些频率较低的级别(其频率在总数中所占的百分比低于某一特定百分比)。我怎样才能以一种优雅而紧凑的方式意识到这一点？下面是一个例子，如果我将指定的频率设置为0.3，那么级别"c“应该替换为"a”，因为它的频率只有1/6，低于0.3。

浏览 3提问于2017-11-09得票数 3

回答已采纳

4回答

使PHPStorm中的“到处搜索”类似于Sublime Text 3的"Goto Anything“

intellij-idea、phpstorm、sublimetext3

我正在从ST3转换过来，我想复制我在ST3中经常使用的一个搜索行为。如您所见，ST3使用模糊字符串匹配来匹配项目中的任何路径和文件名。ze vi help将匹配在其文件路径中包含该字符顺序列表的任何文件。

浏览 2提问于2015-04-22得票数 13

1回答

RegEx -将字符串从字符91提取到字符180，并删除前后的所有内容。

regex

输出将如下所示：所以现在我需要删除91号字符之前的所有内容

浏览 3提问于2020-03-18得票数 1

回答已采纳

3回答

Node.js或C的不区分大小写、精确的子字符串匹配/索引(不进行全文搜索)

c、node.js、search、indexing、full-text-search

哪些库提供不区分大小写的、精确的子字符串匹配，在Node.js中与大量字符串进行匹配？我正在特别寻找基于索引的解决方案。按照顺序，我并不是在寻找带有词干和停止词的模糊、智能、全文搜索；相反，最简单(也是最快速)的子字符串匹配器与一个大规模的索引匹配器。解决方案在JavaScript中是受欢迎的，C中的<

浏览 5提问于2015-02-05得票数 1

2回答

最适合基于前缀的搜索的数据结构

c、regex、algorithm、data-structures、hash

我必须在内存中维护键值对的数据结构。我有以下限制：键和值都是长度分别为256和1024的文本字符串。任何键通常看起来像k1k2k3k4k5，每个k(i)本身都是4-8字节的字符串。operations:Add DS将具有以下void del_kv(void *ds, char *key);LookUp不频繁操作:典型签名看起来像void add_kv(void *ds, char*lookup(void *ds, char *key);Iterate最</em

浏览 39提问于2018-06-04得票数 3

1回答

在特定字符串之后不匹配字符串的Regex。

javascript、regex、string

我需要在特定字符串之后不匹配字符串的正则表达式，假设我有以下字符串在上面的字符串中，我必须将所有的5s替换为0，直到8之后的5s除外，如下所示：我尝试了如下： "4515856581128483548598852649285965

浏览 0提问于2017-11-08得票数 3

回答已采纳

1回答

WEKA训练用例和测试用例不匹配

string、testing、match、weka

我的例子是很长的文本。我想使用一个特征集，其中第i个元素是第i个最频繁的单词，例如，第一个特征是最频繁的单词。我的问题是，如果我使用字符串功能，那么我就不能使用我想要的分类器。如果我使用名义特征，我会将第一个特征作为我的训练示例中最常用的单词。对于测试示例，第一个特征是我的测试示例中出现频率最高的单词。所以这些特征是不同<em

浏览 3提问于2013-08-12得票数 0

3回答

Seaborn Countplot :仅显示n个最常用的类别

python、seaborn

我有一个python数组，列出了字符串标签的所有匹配项。让我们称它为labels_array。使用seaborn作为sns我想要显示此数组的计数图： sns.countplot(labels_array)这样行得通，但是由于我的数组中有太多不同的标签，所以输出结果看起来不太好。有没有办法只显示n个最频繁的标签。

浏览 7提问于2017-11-21得票数 0

3回答

使用os.chdir访问文件夹以“\f”开头的文件

python、string

我想以下列方式访问我的文件夹：文件夹“模糊匹配”以\f符号开始，该符号断开字符串。绕开这些符号的最简单的方法是什么？

浏览 5提问于2017-05-24得票数 0

回答已采纳

2回答

Elasticsearch:搜索最频繁的比赛/术语，而不需要TF或国防军调整

elasticsearch

它基本上是一个bool查询，在许多不同的字段上混合了“术语”和“匹配”(使用模糊度、ngram、边ngram等)。由于我们希望将不同的查询类型与"bool“组合在一起，所以在”交叉字段“查询方面尝试了我们的最佳运气。输入"astr“将<

浏览 4提问于2015-09-20得票数 2

1回答

为什么在执行模糊搜索时会绕过Solr过滤器禁用？

lucene、solr

我的Solr设置包含用于索引和查询的过滤器LowerCaseFilterFactory，因此barba找到Barba和BARBABarba找到Barba和BARBA Barba我对这些结果的解释是:当执行模糊搜索时，查询不再是小写的(所以已经

浏览 1提问于2010-03-04得票数 3

回答已采纳

1回答

在模糊数据关联矩阵中查找“集线器”

python、adjacency-matrix、fuzzywuzzy、fuzzy-comparison

如果我有一个字符串列表，我如何选择一些‘代表性’字符串，以便在它们之间，它们可以模糊地匹配列表中的所有字符串。第一步，对所有文本进行模糊匹配，如下所示我的想法是选择两个或三个字符串，它们可以作为整个集合的代表，这样如果我模糊匹配，我可以用>80的阈值将所有字符串标记为1。有什么办法我能做到吗

浏览 7提问于2022-08-31得票数 0

1回答

基于函数中的值计数创建虚拟变量

python、pandas、dataframe、function、dummy-variable

在函数中，我试图将0赋值给更频繁的字符串，将1赋值给更少的字符串。我的想法是，它应该使用任何带有二进制字符串的列，并且基于值计数，赋值为0和1。

浏览 2提问于2022-05-19得票数 -1

回答已采纳

2回答

Lucene.Net适合作为频繁变化内容的搜索引擎吗？

search、lucene、indexing、lucene.net

Lucene.Net适合作为频繁变化内容的搜索引擎吗？关于解决

浏览 2提问于2008-11-07得票数 12

回答已采纳

点击加载更多