问如何使用Scikit学习在语料库中获取单词/术语频率？
EN

Stack Overflow用户

提问于 2021-06-08 05:00:10

回答 1查看 513关注 0票数 3

我有一个文档的语料库，我想提取每个文档中的单词频率。我可以使用CountVectorizer()来获取每个文档的术语计数，我也可以使用TfidfVectorizer()获取术语频率--反向文档频率，但这两种方法似乎都不能单独给出术语频率。我如何获得术语频率？

这个related question似乎问我的问题，但问题和答案有关的术语计数，而不是术语频率。也许是我误解了这些术语，但我的理解是，术语计数是每个术语出现在文档中的整数次数，而术语频率是术语计数除以文档长度的次数。

python

scikit-learn

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-06-08 08:04:42

为此目的，有了TfidfTransformer。从医生那里：

将计数矩阵转换为规范化的tf或tf-表示

由于它只转换计数矩阵，因此您需要将它与已经向量化的矩阵结合使用，或者在之前使用CountVectorizer：

from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer


X_count = CountVectorizer().fit_transform(X_train)  # use first if X_train is not vectorized
X_tf = TfidfTransformer(use_idf=False).fit_transform(X_count)

请注意，通过设置use_idf=False，您将只获得术语频率。

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/67881662

复制

相似问题

问如何使用Scikit学习在语料库中获取单词/术语频率？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Scikit学习在语料库中获取单词/术语频率？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何使用Scikit学习在语料库中获取单词/术语频率？
EN