NLP教程：用Fuzzywuzzy进行字符串模糊匹配

文章来源：企鹅号 - ATYUN订阅号

编译：yxy

出品：ATYUN订阅号

在计算机科学中，字符串模糊匹配（ fuzzy string matching）是一种近似地（而不是精确地）查找与模式匹配的字符串的技术。换句话说，字符串模糊匹配是一种搜索，即使用户拼错单词或只输入部分单词进行搜索，也能够找到匹配项。因此，它也被称为字符串近似匹配。

字符串模糊搜索可用于各种应用程序，例如：

拼写检查和拼写错误，拼写错误纠正程序。例如，用户在Google中键入“Missisaga”，将返回文字为“Showing results for mississauga”的点击列表。也就是说，即使用户输入缺少字符、有多余的字符或者有其他类型的拼写错误，搜索查询也会返回结果。

可以使用软件检查重复的记录。例如，如果客户由于他们的名称拼写不同(例如Abigail Martin和Abigail Martinez)（也可能由于错误输入电话号码）在数据库中被多次列出了不同的购买行为，那么就会出现一个新地址。

重复数据删除技术，它可不像听起来那么容易，尤其是如果你有数十万条记录的话。即便是Expedia也没法100％正确：

这篇文章将解释字符串模糊匹配及其用例，并使用Python中Fuzzywuzzy库给出示例。

每个酒店都有自己的命名方法来命名它的房间，在线旅行社(OTA)也是如此。例如，同一家酒店的一间客房Expedia将之称为“Studio, 1 King Bed with Sofa Bed, Corner”，Booking.com（缤客）则简单地将其显示为“Corner King Studio”。

不能说有谁错了，但是当我们想要比较OTA之间的房价时，或者一个OTA希望确保另一个OTA遵循费率平价协议时（rate parity agreement），这可能会导致混乱。换句话说，为了能够比较价格，我们必须确保我们进行比较的东西是同一类型的。

对于价格比较网站和应用程序来说，最令人头条的问题之一就是试图弄清楚两个项目（比如酒店房间）是否是同一事物。

FuzzyWuzzy

Fuzzywuzzy是一个Python库，使用编辑距离（Levenshtein Distance）来计算序列之间的差异。

为了演示，我创建了自己的数据集，也就是说，对于同一酒店物业，我从Expedia拿一个房间类型，比如说“Suite, 1 King Bed (Parlor)”，然后我将它与Booking.com中的同类型房间匹配，即“King Parlor Suite”。只要有一点经验，大多数人都会知道他们是一样的。按照这种方法，我创建了一个包含100多对房间类型的小数据集，可以访问Github下载。

GitHub：https://github.com/susanli2016/NLP-with-Python/blob/master/room_type.csv

我们使用这个数据集测试Fuzzywuzzy的做法。换句话说，我们使用Fuzzywuzzy来匹配两个数据源之间的记录。

数据集是我自己创建的，非常干净无需清理。

有几种方法可以比较Fuzzywuzzy中的两个字符串，让我们一个一个地进行尝试。

ratio ，按顺序比较整个字符串的相似度。

它告诉我们“Deluxe Room, 1 King Bed”和“Deluxe King Room”的相似度约62％。

“Traditional Double Room, 2 Double Beds”和“Double Room with Two Double Beds”的相似度约69％。

“Room, 2 Double Beds (19th to 25th Floors)”和“Two Double Beds — Location Room (19th to 25th Floors)”相似度约74%。

显然效果不怎么样。事实证明，简单的方法对于词序，缺失或多余词语以及其他类似问题的微小差异太过敏感。

partial_ratio，比较部分字符串的相似度。

我们仍在使用相同的数据对。

对于我的数据集来说，比较部分字符串并不能带来更好的整体效果。让我们尝试下一个。

token_sort_ratio，忽略单词顺序。

这是迄今为止最好的。

token_set_ratio，忽略重复的单词。它与token_sort_ratio类似，但更加灵活。

100

看来token_set_ratio最适合我的数据。根据这一发现，我决定将token_set_ratio应用到我的整个数据集。

当设定相似度> 70时，超过90％的房间对超过这个匹配分数。还很不错！

Github：https://github.com/susanli2016/NLP-with-Python/blob/master/Fuzzy%20String%20Matching.ipynb

发表于: 2018-10-202018-10-20 11:01:16
原文链接：https://kuaibao.qq.com/s/20181020B0LT9500?refer=cp_1026
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

扫码

添加站长进交流群

领取专属 10元无门槛券

私享最新 技术干货

NLP教程：用Fuzzywuzzy进行字符串模糊匹配

相关快讯

扫码

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐