我有一个包含三列的csv文件,我想循环遍历列'text‘的内容,并标记它中的每个单元格(用字符串和撇号分隔)。
这似乎不起作用:
tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
x = tokenizer.tokenize(x)我得到的错误是TypeError:预期的字符串或类似字节的对象。
发布于 2017-10-16 18:03:24
来自文档
注意:当标记Unicode字符串时,请确保您没有使用该字符串的编码版本(可能需要首先对其进行解码,例如使用s.decode("utf8") )。
所以试着:
tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
x = tokenizer.tokenize(x.decode("utf8"))https://stackoverflow.com/questions/46775092
复制相似问题