我有一个熊猫数据框架,我想做基于一个文本列的2-gram频率。
text_column
This is a book
This is a book that is read
This is a book but he doesn't think this is a book
最终结果可能是2克的频率计数,但频率是计算每个文档中是否有2克,而不是2克计数。
因此部分结果将是
2 gram Count
This is 3
a book 3
“这是”和“一本书”出现在所有三个文本中,尽管第三个文本中每个文本都有两个,因为我只对这两个克出现了多少个文件感兴趣,所以计数是3,所以不是4。
你知道我该怎么做吗?
谢谢
https://stackoverflow.com/questions/51620775
复制相似问题