我有一个波兰语文本,我想过滤掉非波兰字母,但问题是波兰的特定字母消失了。
# coding: utf-8
import re
_NOT_LETTERS = re.compile('[^a-ząćęłóńśżź]+')
text = u'dzień dobry i wszystkiego najlepszego życzę'
data = _NOT_LETTERS.sub(' ', text)
print data
结果是
dzie dobry i wszystkiego najlepszego ycz
而不是预期
dzień dobr