专栏首页Python进阶之路Python模糊匹配 | 刷英语六级段落匹配只需要3秒?

Python模糊匹配 | 刷英语六级段落匹配只需要3秒?

一、前言

一年二度的四六级考试就此落下帷幕,本次考试体验感极强,反手就是一个 “五星好评”

星光不负赶路人,时光不负有心人,想要轻松通过四六级。还得是脚踏实地,一步一个脚印,做好充足的复习准备。预祝大家无论是期末考还是四六级,都能取得理想的成绩,然后回家过个好年~~

本文利用 Python 的模糊匹配方法来刷英语六级段落匹配,仅需要3秒!Python的 FuzzyWuzzy 库,是一个易用而又强大的模糊字符串匹配工具包。它依据 Levenshtein Distance 算法,计算两个序列之间的差异。Levenshtein Distance算法,又叫 Edit Distance 算法,是指两个字符串之间,由一个转成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。一般来说,编辑距离越小,两个串的相似度越大。

Github传送门:https://github.com/seatgeek/fuzzywuzzy

后面的编程都是在 jupyter notebook 中,安装 FuzzyWuzzy 库如下所示:

pip install fuzzywuzzy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

原文链接:https://yetingyun.blog.csdn.net/article/details/122022033

未经作者允许,禁止转载,更勿做其他用途,违者必究。

二、fuzz模块

导入方法,直接导入这个模块的话,系统会提示UserWarning,这不代表报错,程序依旧可以运行(使用的默认算法,执行速度较慢),可以按照系统的提示安装 python-Levenshtein 库进行辅助,这有利于提高计算的速度。

1. 简单匹配

这个其实不怎么精确,也不常用,测试如下:

2. 部分匹配(Partial Ratio)

尽量使用部分匹配,精度较高!测试如下:

可以发现,fuzz.partial_ratio(S1, S2)部分匹配,如果 S2 是 S1 的子串依然返回100

3. 忽略顺序匹配(Token Sort Ratio)

原理:以 空格 为分隔符,小写化所有字母,无视空格外的其它标点符号,测试如下:

fuzz.token_sort_ratio(S1,S2)比较S1,S2单词是否相同,不考虑词语之间的顺序。

4. 去重子集匹配(Token Set Ratio)

相当于比对之前有一个集合去重的过程,注意最后两个,可理解为该方法是在 token_sort_ratio 方法的基础上添加了集合去重的功能,下面三个匹配的都是倒序。

fuzz的这几个 ratio 函数最后得到的结果都是匹配数值,如果需要获得匹配度最高的字符串结果,还需要依旧自己的数据类型选择不同的函数,然后再进行结果提取,如果但看文本数据的匹配程度使用这种方式是可以量化的,但是对于我们要提取匹配的结果来说就不是很方便了,因此就有了 process 模块。

三、process模块

用于处理备选答案有限的情况,返回模糊匹配的字符串和相似度。测试如下:

四、实践

实践当然就是利用 fuzz 模块来刷英语六级段落匹配,看看结果怎么样!!

知乎找到一个网址可以下载六级真题PDF:https://pan.uvooc.com/Learn/CET/

它的 PDF 直接编辑不了,貌似是扫描的。这里我们用 Adobe Acrobat Pro DC 识别后,将阅读材料和要匹配的选项直接复制粘贴到 txt 里面。

顺便说一下:利用 Adobe Acrobat Pro DC 裁剪页面提取 PDF 里的矢量图保存下来,图像放大不会失真,你直接截图的话,放大肯定会失真的。

读取 txt 数据:

with open("Englishreading.txt", "r", encoding="utf-8") as f1:
    con1 = f1.read().split("\n")
dic1 = {}
for i in con1:
    data = i.split(":")
    dic1[data[0]] = data[1]

print(dic1)
with open("match.txt", "r") as f2:
    con2 = f2.read().split("\n")

dic2 = {}
for i in con2:
    data = i.split(":")
    dic2[data[0]] = data[1]
print(dic2)

先简单测试一个,比如一个是匹配F,如下所示:

test_str = "Marconi was central to our present-day understanding of communication."
# test_str = "As an adult, Marconi had an intuition that he had to be loyal to politicians in order to be influential."
big_lst = []
for k, v in dic1.items():
    sentence = [x.strip(" ") for x in v.split(".")]
    scores = []
    for a in sentence:
        score = fuzz.partial_ratio(a, test_str)
        scores.append(score)
    # print(scores, sum(scores), round(sum(scores) / len(scores), 2))
    k_score = sum(scores) * 0.2 + sum(scores) / len(scores)
    big_lst.append((k, scores, round(k_score, 2)))

results = sorted(big_lst, key=lambda x: x[2], reverse=True)
print(results)
print(results[0][0])

得到答案也是 F,俺们的算法做对了!最后刷英语六级段落匹配(10个题),结果如下:

# -*- coding: UTF-8 -*-
"""
@Author  : 叶庭云
@CSDN    : https://yetingyun.blog.csdn.net/
"""
answers = []
for idx, ans in dic2.items():
    big_lst = []
    for k, v in dic1.items():
        sentence = [x.strip(" ") for x in v.split(".")]
        scores = []
        for a in sentence:
            # score = fuzz.token_sort_ratio(a, ans)
            score = fuzz.partial_ratio(a, ans)
            if score > 30:
                scores.append(score)
        scores.sort()
        if len(scores) >= 2:
            max_ = max(scores) + scores[-2]
        else:
            max_ = max(scores)
        big_lst.append((k, max_, scores))
    results = sorted(big_lst, key=lambda x: x[1], reverse=True)
    print(results)
    print("-" * 66)
    answers.append(results[0][0])


print("answer:", answers)

本文利用 Python 的模糊匹配方法来刷英语六级段落匹配,仅需要3秒!(还是在打印了中间结果的情况下),选取的是 2021 年 6 月英语六级真题(卷一)来进行测试,昨天刚考的六级,网上还没有找到能用的真题PDF。感兴趣的读者后面可以自行动手实践呀,看看能对多少个。不会吧不会吧,不会有人六级错两个以上吧🚀🚀

本文参与 腾讯云自媒体分享计划 ,欢迎热爱写作的你一起参与!
本文分享自作者个人站点/博客:https://blog.csdn.net/fyfugoyfa复制
如有侵权,请联系 yunjia_community@tencent.com 删除。
登录 后参与评论
0 条评论

相关文章

  • 企业微信万亿级日志检索系统

    作者:datonli,腾讯 WXG 后台开发工程师 背景 开发在定位问题时需要查找日志,但企业微信业务模块日志存储在本机磁盘,这会造成以下问题: 日志查找效率低...

    腾讯技术工程官方号
  • 基于OpenCV的跳一跳外挂实现原理

    最近,微信跳一跳小游戏迅速走红并且在朋友圈刷屏,游戏的规则很简单,就是控制一个小矮子再各个墩子上跳来跳去。由于游戏比较简单,一时间大家都玩起来了,这也带动了一些...

    xiangzhihong
  • 分享一个强大的英汉词典开源数据库

    之前我们通过程序整理过一份 Python 及编程相关的英语高频词汇表:我们用程序整理出了一份Python英语高频词汇表,拿走不谢!(回复 单词 查看代码及单词本...

    Crossin先生
  • Word 神器 python-docx

    前两天有个朋友向我求助,她在写毕业论文时,不小心将论文里的中文双引号替换为英文的了,各种原因导致无法回退,8万多字的论文,眼看就要交了,该怎么办?

    纯洁的微笑
  • 推荐一个生成后端模拟数据的懒人工具:lazy-mock

    本文来源:https://juejin.im/post/6871592049485807630

    程序IT圈
  • MySQL模糊搜索的几种姿势

    导读:本文对MySQL中几种常用的模糊搜索方式进行了介绍,包括LIKE通配符、RegExp正则匹配、内置字符串函数以及全文索引,最后给出了性能对比。

    luanhz
  • 你可以这样写需求文档 第02期:字段取值

    我们说产品经理对外输出有三个内容,需求文档、原型图、流程图,其中需求文档承载了整个设计目标、过程及最终结果,所以是笔者认为产品经理最重要的输出点。

    数据库交流
  • ES查询性能调优实践,亿级数据查询毫秒级返回

    1、概述 本文简要描述ES查询性能的优化过程。忽略很多细节,其实整个过程并不顺利,因为并没有一个明确的指引,教你怎么做就能让性能大幅提升。很多时候不同业务有...

    腾讯移动品质中心TMQ
  • 基于TF-IDF和KNN的模糊字符串匹配优化

    模糊字符串匹配(Fuzzy string matching)是一种查找近似模式(而不是完全匹配)的技术。换句话说,模糊字符串匹配是一种搜索类型,即使用户拼错单词...

    flavorfan
  • 基于深度学习图像特征匹配,用于图像去重

    向AI转型的程序员都关注了这个号??? 机器学习AI算法工程   公众号:datayx 基于Flask RESTful api的图像特征检索方案,api传入ur...

    机器学习AI算法工程
  • 程序员带你十天快速入门Python,玩转电脑软件开发(四)

    本系列文章立志于从一个已经习得一门编程语言的基础之上,全面介绍Python的相关开发过程和相关经验总结。本篇文章主要是基于上一篇的程序员带你十天快速入门Pyth...

    做全栈攻城狮
  • Python后端技术栈(六)--数据库

    What makes you different or weird—that’s your strength.

    小闫同学啊
  • 由Java正则表达式的灾难性回溯引发的高CPU异常:java.util.regex.Pattern$Loop.match

    某天领导report了一个问题:线上的CPU自从上一个版本迭代后就一直处于居高不下的状况,领导看着这段时间的曲线图判断是有两条线程在不停的死循环。

    雨临Lewis
  • 【OCR技术系列一】光学字符识别技术介绍

    注:此篇内容主要是综合整理了光学字符识别 和OCR技术系列之一】字符识别技术总览,详情见文末参考文献

    闪电gogogo
  • 程序员带你十天快速入门Python,玩转电脑软件开发(四)

    本系列文章立志于从一个已经习得一门编程语言的基础之上,全面介绍Python的相关开发过程和相关经验总结。本篇文章主要是基于上一篇的程序员带你十天快速入门Pyth...

    做全栈攻城狮
  • Elasticsearch(四)

    对于 ES,当我们了解了 mapping 和 analysis 的相关内容之后,使用者更关心的问题往往是如何构建查询语句从而搜索到自己想要的数据。因此,本文将会...

    凌虚
  • 模糊匹配工具2.0

    之前发过两篇关于模糊匹配工具的说明,《解决文字模糊匹配的小工具》和《快速模糊匹配——速度提升几千倍!!!》,解决以下这类场景:

    btharp

扫码关注云+社区

领取腾讯云代金券