首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

Python处理中文标点符号

中文文本中可能出现的标点符号来源比较复杂,通过匹配等手段对他们处理的时候需要格外小心,防止遗漏。以下为在下处理中文标点的时候采用的两种方法: 中文标点集合 比较常见标点有这些: 1 !?...调用zhon包的zhon.hanzi.punctuation函数即可得到这些中文标点。 如果想用英文的标点,则可调用string包的string.punctuation函数可得到: 1 !"...@[\\]^_`{|}~ 因此,比如需要将所有标点符号去除,可以进行以下操作: 1 2 3 4 >>> import re >>> from zhon.hanzo import punctuation...,只留字母、数字、中文 1 2 3 4 def remove_punctuation(line): rule = re.compile(ur"[^a-zA-Z0-9\u4e00-\u9fa5]"...比如只要遇到中文或英文的逗号和句号等符号就分割,可以直接用translate把这些符号翻译为统一的分隔符,再split: 1 2 3 strip_chars = '?"。.

8.8K40

原生js之字符串截取

slice(start, end+1): 两个参数时,参数指截取位置,截取含头不含尾;一个参数时,默认截取到字符串结尾。参数可以为负数,负数就倒着数位置。...-1)); // 截取“星期”并打印 console.log(str.slice(3,-3)); // 未截取任何信息,因为正着数第三位是“星”,倒着数第三位也是“星”,截取取头不取尾,头和尾重了,所以没有截取到任何信息...var str = “今天是星期二”; var i = str.indexOf(“星”); console.log(str.substring(i, i+4)); // 截取“星期二”并打印 原生js...的字符串截取 可是原生js中并不是一般直接用slice、substring、substr就可以了,先看一下原生js实现字符串长度截取的代码: function cutstr(str, len) {...-\xff]/; // 正则判断字符是否匹配非单字节的字符(例如汉字、汉字符号,单字节字符包含英文字母、数字、英文符号等。)

3.1K20

js 字符串截取方法汇总

一、使用 slice() 截取 1,函数说明 slice() 方法可通过指定的开始和结束位置,提取字符串的某个部分,并以新的字符串返回被提取的部分。...如果没有指定该参数,那么截取的字符串包含从 start 到结束的所有字符。如果这个参数是负数,那么它规定的是从数组尾部开始算起的字符。...str.slice(3,5)); //34 console.log(“从索引为3的字符起到倒数第3个字符的前一个字符:”, str.slice(3,-3)); //3456 二、使用 substring() 截取...5,3)); //34 console.log(“从索引为3的字符起到索引为20的前一个字符结束:”, str.substring(3,20)); //3456789 三、使用 substr() 截取...5的字符串:”, str.substr(3,5)); //34567 console.log(“从索引为3的字符起截取长度为20的字符串:”, str.substr(3,20)); //3456789

4.4K20
领券