我正在做一个中国的NLP项目。我需要删除除数字之间的那些字符以外的所有标点符号,并且只保留汉字(\u4e00-\u9fff)、字母数字字符(0-9a-Za-Z).For示例,应保留12-34中的连字符,而删除123后的等号。
这是我的python脚本。
import re
s = "中国,中,。》%国foo中¥国bar@中123=国%中国12-34中国"
res = re.sub(u'(?<=[^0-9])[^\u4e00-\u9fff0-9a-zA-Z]+(?=[^0-9])','',s)
print(res)
预期的产出应该是
中国中国