我使用sklearn库从tweet中提取字数。但我对丢弃一些特殊字符有点问题。我想保留CountVectorizer
对象中的“#”和“@”字符。
默认的token_pattern参数是:token_pattern='(?u)\b\w\w+\b'
例如在这个语料库上。
['@terör @terör #terör ak @terör ali ali ...']
...the输出为:
['ak', 'ali', 'terör', ...]
CountVectorizer
的默认正则表达式删除了特殊字符。如何保留这些字符?
发布于 2019-02-19 08:30:41
我用来改变参数;
token_pattern=r'\b\w\w+\b|(?<!\w)@\w+|(?<!\w)#\w+')
输出结果符合预期;
['@terör', '#terör', ...]
https://stackoverflow.com/questions/54761797
复制