前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >python︱flashtext高效字符串查找与替换

python︱flashtext高效字符串查找与替换

作者头像
悟乙己
发布2018-01-02 17:01:27
2K0
发布2018-01-02 17:01:27
举报
文章被收录于专栏:素质云笔记素质云笔记

项目链接:https://github.com/vi3k6i5/flashtext 原文:资源 | 十五分钟完成Regex五天任务:FastText,语料库数据快速清理利器 .

性能:

这里写图片描述
这里写图片描述
这里写图片描述
这里写图片描述

案例:字符串查找

英文:

代码语言:javascript
复制
# pip install flashtext
from flashtext.keyword import KeywordProcessor
keyword_processor = KeywordProcessor()
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('Bay Area')
keywords_found = keyword_processor.extract_keywords('I love Big Apple and Bay Area.')
keywords_found
# ['New York', 'Bay Area']

中文:

代码语言:javascript
复制
from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()
keyword_processor.add_keyword('你好', '您好')  # 前面一个单词为住   后面一个单词为替换 
keyword_processor.add_keyword('不要')
keywords_found = keyword_processor.extract_keywords('你好,请不要随便践踏草坪。')  #显示的单词为替换之后的
keywords_found

最后显示:

代码语言:javascript
复制
['您好', '不要']

add_keyword(查找字符,替换字符),也就是先找到句子中的’你好’,然后显示出来的是add_keyword的替换字符 .

案例:字符串替换

英文:

代码语言:javascript
复制
from flashtext.keyword import KeywordProcessor
keyword_processor = KeywordProcessor()
keyword_processor.add_keyword('Big Apple', 'New York')
keyword_processor.add_keyword('New Delhi', 'NCR region')
new_sentence = keyword_processor.replace_keywords('I love Big Apple and new delhi.')
new_sentence
# 'I love New York and NCR region.'

中文:

代码语言:javascript
复制
from flashtext import KeywordProcessor
keyword_processor = KeywordProcessor()
keyword_processor.add_keyword('你好', '您好')  # 前面一个单词为住   后面一个单词为替换 
new_sentence = keyword_processor.replace_keywords('你好,请不要随便践踏草坪。')
new_sentence

最后显示:

代码语言:javascript
复制
'您好,请不要随便践踏草坪。'

其他功能觉得在中文场景不太好用。。

本文参与 腾讯云自媒体同步曝光计划,分享自作者个人站点/博客。
如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 作者个人站点/博客 前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 性能:
  • 案例:字符串查找
  • 案例:字符串替换
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档