首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python处理中文标点符号

中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: 1 !?...调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。 如果想用英文的标点,则可调用string包的string.punctuation函数可得到: 1 !"...@[\\]^_`{|}~ 因此,比如需要将所有标点符号去除,可以进行以下操作: 1 2 3 4 >>> import re >>> from zhon.hanzo import punctuation...去除标点。。"...punctuation) line = re.sub(re_punctuation, "", line) return line.strip() 清洗完毕后,有时候我们希望按照多个标点符号来分割

8.8K40

python过滤敏感词记录

简述: 关于敏感词过滤可以看成是一种文本反垃圾算法,例如 题目:敏感词文本文件 filtered_words.txt,当用户输入敏感词语,则用 星号 * 替换,例如当用户输入「北京是个好城市」,...userinput.replace(i,replace_str) return word print filterwords('filtered_words.txt') 再例如反黄系列: 开发敏感词语过滤程序...写一个程序过滤掉所有标题中的所有敏感词,保存到另一个文件中。 1、DFA过滤敏感词算法 在实现文字过滤的算法中,DFA是比较好的实现算法。...python 实现DFA算法: # -*- coding:utf-8 -*- import time time1=time.time() # DFA算法 class DFAFilter():...:' + str(time2 - time1) + 's') 运行效果: 新疆骚乱苹果新品发布会雞八 ****苹果新品发布会** 总共耗时:0.0010344982147216797s 2、AC自动机过滤敏感词算法

2.8K20

python列表过滤的方法

python中,对列表这样的数据结构进行过滤,提取自己需要的元素,组成新的列表,是很常见的操作,这就要自然而然的用到列表过滤了,而常用的过滤当然就是循环后通过if进行,但是这样子,显然就是代码的开支有些大...python中,提供了一个列表过滤的方式来做到这样的方式 : [ mapping-expression for  element in  source-list if  filter-expression...另外一种会用到的过滤,就是通过lambda函数进行,其实和这段列表过滤的原理一样,只是将if判断的部分通过lambda函数进行,完整的代码如下 # -*- coding:utf-8 -*- # 列表过滤和使用...lambda函数过滤 if __name__ == "__main__": info = """>>>>>用来演示普通方式过滤列表和使用lambda函数过滤<<<<<""" print...以上这些就是常用到的一些进行列表元素过滤的方法了

1.6K30
领券