使用SequenceMatcher Python查找pandas中的所有相似值

在Python中，可以使用SequenceMatcher模块来查找pandas中的所有相似值。SequenceMatcher模块是Python标准库中的difflib模块的一部分，它提供了比较序列之间相似度的功能。

首先，需要导入SequenceMatcher模块：

from difflib import SequenceMatcher

然后，可以使用SequenceMatcher的get_matching_blocks()方法来获取相似值的匹配块。这个方法接受两个参数，分别是要比较的两个序列。在这个问题中，我们要比较的是pandas中的值。

import pandas as pd

# 创建一个示例DataFrame
data = {'col1': ['apple', 'banana', 'orange', 'grape'],
        'col2': ['apple', 'banana', 'orange', 'grapefruit']}
df = pd.DataFrame(data)

# 获取所有相似值的匹配块
similar_values = []
for i, row in df.iterrows():
    for j, value in enumerate(row):
        if j > 0:
            matcher = SequenceMatcher(None, row[j-1], value)
            matching_blocks = matcher.get_matching_blocks()
            similar_values.extend([row[j-1][block.a:block.a+block.size] for block in matching_blocks])

# 去除重复值
similar_values = list(set(similar_values))

上述代码中，我们创建了一个示例的DataFrame，并使用iterrows()方法遍历每一行。然后，对于每一行中的每一个值，我们使用SequenceMatcher来比较它与前一个值的相似度，并使用get_matching_blocks()方法获取匹配块。最后，将所有相似值添加到一个列表中，并使用set()函数去除重复值。

这样，similar_values列表中就包含了pandas中的所有相似值。

关于SequenceMatcher模块的更多信息，可以参考Python官方文档：SequenceMatcher。

另外，如果你在使用云计算的过程中需要处理大规模的数据，可以考虑使用腾讯云的云原生数据库TDSQL，它提供了高可用、高性能、弹性扩展的数据库服务。你可以通过访问腾讯云官网了解更多关于TDSQL的信息。

使用SequenceMatcher Python查找pandas中的所有相似值

、、、

我正在尝试过滤列中pandas中的特定值，但也考虑到了输入错误。我认为使用SequenceMatcher是一个很好的解决方案，但我不知道在DataFrame中应用它的最好方法是什么。df1 = [[1, Amsterdam], [2, amsterdam], [3, rotterdam], [4, amstrdam], [5, Berlin]] 如果我想以一定的比例过滤“阿姆斯特丹输出可能是这样<e

浏览 45提问于2020-06-30得票数 0

回答已采纳

1回答

删除Python中某列的相似文本行

、、、、

import pandas as pd2 13 Error string 'foo' at line 11 3 14 Error string 'bar' at line 14 我想使用difflib.SequenceMatcher删除低于80行

浏览 19提问于2020-01-07得票数 1

回答已采纳

3回答

如何在我的推荐系统中检查关键字是否与电影片名相似？

、、、

我已经尝试了我所知道的所有方法来检查关键字是否与我的dataset.csv电影标题中的内容相似，但都不起作用。只有标题与数据集中的电影完全相似时，它才会向我推荐电影。例如:如果我搜索“蜘蛛侠3”，它会向我推荐与之相关的电影，但如果我搜索“蜘蛛侠3”，它就不会知道我的意思，并显示错误信息。import pandas as pdfrom sklearn.metrics.pairwise

浏览 14提问于2021-08-13得票数 0

回答已采纳

1回答

如何使用difflib在列中查找相似的行？

请注意，我有两个CSV文件，其中包含公司名称的列。对于Python3和pandas，我进行了合并以比较它们的名称： dividas_dep, funrural,然后我使用了difflib： from difflib import S

浏览 1提问于2017-10-12得票数 0

1回答

在熊猫数据中标记相似的单元格值

、、

我用以下代码创建了一个名为df的熊猫数据中心：import pandas as pd from difflib import SequenceMatcher return SequenceMatcher(None, a, b).rati

浏览 2提问于2022-06-14得票数 1

回答已采纳

2回答

创建包含相似单词的新列

、、

我有一个专栏，其中包含了pandas数据框中的相似单词： My_Columnthere-is_catmommyDaniel-1Bobimport jellyfish jellyfish.levenshtein_distance() # or jellyfish.jaro_distance() 我想知道如何应用这三种算法中的一种来创建一个列，该列列出与My_Column中的单

浏览 19提问于2020-11-05得票数 1

回答已采纳

1回答

将字符串相似率最高的两列中的字符串匹配-熊猫

、、

我有两个数据：df1 = pd.DataFrame({'Index': [1, 2, 3, 4, 5],from difflib import <e

浏览 6提问于2022-02-14得票数 1

2回答

匹配和比较中的字符串

、

使用系统上某些字段的当前值的API来提取值。另一个有这些字段的实际当前值。例如:系统上的名称和纸上的名称。我已经在公共列中合并了这两个名称，但现在正在尝试比较Python上的名称，看看它们是否近似匹配和/或它们是否需要更新。有什么办法我能做到吗？我相信这可以在excel上使用isnumber(搜索(.))来完成。关于我<e

浏览 1提问于2018-10-04得票数 0

回答已采纳

2回答

医学术语中的语义相似度

、、、、

我想在两个拼写错误丰富的列表中找出相似的临床术语。现在，我使用SequenceMatcher来查找最相似的内容。示例：def similar(a, b):print similar('high blood pressure'

浏览 2提问于2018-03-06得票数 1

1回答

删除csv中的同名相似地址

、、

所以我的csv数据是这样的： Restaurant Rating Address Birdman 5 18Mangga Besar Raya 这是一些26k餐厅列表的例子，包括它们的属性，如评级，地址等，从抓取两个不同的网站。将它们合并到一个csv中，这样就可以填补彼此缺乏餐厅名称数据的情况。我需要的是去掉一个同名同址的行。但正如你所看到<

浏览 19提问于2021-02-02得票数 0

3回答

根据两本词典在Python中的相似程度返回“相似分数”？

、、

我知道可以使用以下函数返回两个字符串的相似程度：def similar(a, b):但是，是否可以根据键及其对应值的相似性来为两本词典打分呢？不是公共键的数目，也不是共同点，而是从0到1的分数，就像上面的字符串示例一样。我试图在这本词典中找到评级‘’Shane‘和’

浏览 1提问于2016-03-14得票数 8

回答已采纳

2回答

在循环数据时忽略NaN/null值

、

对于我认为是一个简单的问题，我没有找到任何明确的答案。这是针对Python 3的。在应用函数、循环等时，您的一些技巧和技巧是什么？当您的列同时具有空值和非空值时？下面是我今天清理一些数据时遇到的一个例子。我有一个函数，从合并的dataframe中提取两列，然后计算一个比率，显示两个字符串有多相似。进口：imp

浏览 6提问于2017-10-18得票数 0

回答已采纳

1回答

匹配在Python中从左到右包含相同单词的两个字符串

、、、、

我试图找到一种方法来匹配两个字符串，看看它们在python中是匹配的还是相似的。print(difflib.SequenceMatcher(None, string1, string2).ratio())print(difflib.SequenceMatcher(None, string1, string3).ratio())print(difflib.SequenceMatch

浏览 0提问于2015-07-29得票数 1

回答已采纳

1回答

熊猫-嵌套循环中按索引排列的KeyError行

、

我有一个名叫pd的潘达数据。我正在尝试使用嵌套的for循环来遍历dataframe的每个元组，并在每次迭代时将元组与框架中的所有其他元组进行比较。在比较步骤中，我使用Python的difflib.SequenceMatcher().ratio()并删除相似度高的元组(比率> 0.8)。问题：不幸的是，在第一个外部循环迭代之

浏览 0提问于2019-12-19得票数 0

回答已采纳

2回答

用数据集中正确的国家/地区名称替换错误的国家/地区名称

我有一个很大的数据集，其中包含两个名称，即国家和城市名称。由于人为错误，存在多个国家/地区和城市名称拼写不正确的条目。英格兰被写成Egnald 有没有人可以指导我如何在python中检查和更正它们？我能够通过使用下面的代码找到不正确的条目，但我不确定如何使用自动化过程中正确的条目来更正它们，因为我不能手动进行更正谢谢以下是我到目前为止所做的工作： import pycountry as pcinvalid_country

浏览 18提问于2020-07-01得票数 1

回答已采纳

4回答

python搜索技术:单词相似度

、、、

我想得到两个单词的相似度百分比，例如)不需要非常准确。有没有办法做到这一点？我正在使用python，但请随意重新注释其他语言。

浏览 1提问于2011-02-12得票数 3

回答已采纳

2回答

寻找两个长度不同的DataFrames之间的相似性

、、、、

DF1有大约75%的公司名称和25%的人，而DF2的情况正好相反，但它们都是字母数字。我想要写的是一个函数，它将突出显示两个列表中最相似的项目，按分数(或百分比)排列。方法1：为这两个列表查找Jaccard系数。，我得到了以下错误： from difflib import SequenceMatcher def similar(a,中的大

浏览 2提问于2016-05-06得票数 1

3回答

检查两个单词是否相互关联。

、、、

我有两个列表:第一个是用户的兴趣；第二个是关于一本书的关键词。我想根据用户的兴趣列表向他推荐这本书。我使用Python的SequenceMatcher类difflib来匹配类似的单词，如“游戏”、“玩家”等等。ratio函数给出了一个介于0,1之间的数字，表示这两个字符串有多相似。但我被困在一个例子中，我计算了“循环”和“射击”之间的相似性。结果是0.6667。for intere

浏览 5提问于2013-09-18得票数 4

回答已采纳

4回答

Difflib.SequenceMatcher是垃圾可选参数查询:如何忽略空白空间、制表符、空行？

、、

我试图使用Difflib.SequenceMatcher来计算两个文件之间的相似之处。这两个文件几乎是相同的，除了一个文件包含一些额外的空白空间，空行和其他没有。因此，问题是如何为这个is杂物方法编写lambda表达式，以便SequenceMatcher方法可以折扣所有的空格、空行等。我尝试使用参数lambda : x==“"，但是结果并不好。对于两个非常相似的文本，这一比例非常低。这非常违背直觉。为了测

浏览 8提问于2008-09-29得票数 3

回答已采纳

1回答

利用sklearn散列向量器获取相似度

、、

我有python程序，从几个站点获取文章并将它们存储在数据库中，在我的例子中，当我不想在数据库中添加新文章时，我应该检查它不是重复的文章。我只想用获取相似度的百分比来完成这项工作，并为其设置一个阈值(例如，我说如果(百分比相似性的两个字符串)> 70%，那么新的文章就是重复的)。我的问题是找到百分之几的相似性。现在我<e

浏览 1提问于2014-08-29得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

使用SequenceMatcher Python查找pandas中的所有相似值

相关·内容

使用SequenceMatcher Python查找pandas中的所有相似值

删除Python中某列的相似文本行

如何在我的推荐系统中检查关键字是否与电影片名相似？

如何使用difflib在列中查找相似的行？

在熊猫数据中标记相似的单元格值

创建包含相似单词的新列

将字符串相似率最高的两列中的字符串匹配-熊猫

匹配和比较中的字符串

医学术语中的语义相似度

删除csv中的同名相似地址

根据两本词典在Python中的相似程度返回“相似分数”？

在循环数据时忽略NaN/null值

匹配在Python中从左到右包含相同单词的两个字符串

熊猫-嵌套循环中按索引排列的KeyError行

用数据集中正确的国家/地区名称替换错误的国家/地区名称

python搜索技术:单词相似度

寻找两个长度不同的DataFrames之间的相似性

检查两个单词是否相互关联。

Difflib.SequenceMatcher是垃圾可选参数查询:如何忽略空白空间、制表符、空行？

利用sklearn散列向量器获取相似度

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐