前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >Python使用正则表达式检查书稿中不应该出现的重复字

Python使用正则表达式检查书稿中不应该出现的重复字

作者头像
Python小屋屋主
发布2018-04-24 17:44:38
1.4K0
发布2018-04-24 17:44:38
举报
文章被收录于专栏:Python小屋Python小屋

问题描述:在编写书稿和反复修改书稿时,很容易有多字的情况,例如“用户的的资料”、“需要需要用户输入”,这些不小心的错误用肉眼很难完全发现。但是设定好规则之后,代码是可以非常忠实地完成这个任务的。首先使用代码发现可疑字词,然后再人工确认,可以大幅度提高工作效率。

技术要点:1)正则表达式中[]表示范围;2)正则表达式元字符\num表示序号为num的子模式,其中整个正则表达式序号为0,第一个子模式序号为1,以此类推;3)正则表达式元字符?表示前面的字符可以出现也可以不出现;4)常用汉字的Unicode编码范围为\u4e00-\u9fa5;5)Python扩展库python-docx用来读写Word文档。

参考代码:

运行结果:

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2018-04-19,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Python小屋 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档