首页
学习
活动
专区
工具
TVP
发布
社区首页 >问答首页 >Python N_gram频率计数

Python N_gram频率计数
EN

Stack Overflow用户
提问于 2018-08-01 03:32:19
回答 2查看 2.8K关注 0票数 4

我有一个熊猫数据框架,我想做基于一个文本列的2-gram频率。

代码语言:javascript
复制
text_column
This is a book
This is a book that is read
This is a book but he doesn't think this is a book

最终结果可能是2克的频率计数,但频率是计算每个文档中是否有2克,而不是2克计数。

因此部分结果将是

代码语言:javascript
复制
2 gram         Count
This is          3
a book           3

“这是”和“一本书”出现在所有三个文本中,尽管第三个文本中每个文本都有两个,因为我只对这两个克出现了多少个文件感兴趣,所以计数是3,所以不是4。

你知道我该怎么做吗?

谢谢

EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/51620775

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档