首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >在从NLTK搭配中查找Trigram时获取无法识别的单词

在从NLTK搭配中查找Trigram时获取无法识别的单词
EN

Stack Overflow用户
提问于 2014-09-05 10:32:21
回答 1查看 148关注 0票数 0

我使用NLTK搭配来查找曲线图,'training_set‘是一个包含多行文本的字符串。

代码语言:javascript
复制
 finder = TrigramCollocationFinder.from_words(str(training_set))
 print finder.nbest(trigram_measures.pmi, 5)

但我得到的输出是

代码语言:javascript
复制
 [('\xe5', '\x8d', '\xb8'), ('\xe5', '\x85', '\x8d'), ('\xe2', '\x80', '\x9c'), ('\xe2',    '\x80', '\x9d'), ('\xe2', '\x80', '\xa6')]

这是编码问题吗?我怎样才能得到正常的英语单词?

EN

回答 1

Stack Overflow用户

发布于 2014-09-09 16:12:13

是的,它们看起来像“windows-1252”编码字符:

代码语言:javascript
复制
>>> import chardet

>>> chardet.detect('\xe5') {'confidence': 0.5, 'encoding': 'windows-1252'}

所以,如果你不想让这些东西出现,你可以对你的短信做这样的事情:

代码语言:javascript
复制
>> '\xe5'.decode('windows-1252').encode('ascii', 'ignore')
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/25683868

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档