问用Panda和Nltk标记csv中的列内容
EN

Stack Overflow用户

提问于 2017-10-16 16:38:03

回答 1查看 980关注 0票数 0

我有一个包含三列的csv文件，我想循环遍历列'text‘的内容，并标记它中的每个单元格(用字符串和撇号分隔)。

这似乎不起作用：

tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
     x = tokenizer.tokenize(x)

我得到的错误是TypeError:预期的字符串或类似字节的对象。

发布于 2017-10-16 18:03:24

来自文档

注意:当标记Unicode字符串时，请确保您没有使用该字符串的编码版本(可能需要首先对其进行解码，例如使用s.decode("utf8") )。

所以试着：

tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
     x = tokenizer.tokenize(x.decode("utf8"))

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/46775092

复制

相似问题

问用Panda和Nltk标记csv中的列内容EN