首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >用Panda和Nltk标记csv中的列内容

用Panda和Nltk标记csv中的列内容
EN

Stack Overflow用户
提问于 2017-10-16 16:38:03
回答 1查看 980关注 0票数 0

我有一个包含三列的csv文件,我想循环遍历列'text‘的内容,并标记它中的每个单元格(用字符串和撇号分隔)。

这似乎不起作用:

代码语言:javascript
复制
tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
     x = tokenizer.tokenize(x)

我得到的错误是TypeError:预期的字符串或类似字节的对象。

EN

回答 1

Stack Overflow用户

发布于 2017-10-16 18:03:24

来自文档

注意:当标记Unicode字符串时,请确保您没有使用该字符串的编码版本(可能需要首先对其进行解码,例如使用s.decode("utf8") )。

所以试着:

代码语言:javascript
复制
tokenizer = RegexpTokenizer("[a-zA-Z'`éèî]+")
for x in data['text']:
     x = tokenizer.tokenize(x.decode("utf8"))
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46775092

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档