我有来自NLP的技术文档数据集
我的数据集有6万条记录
数据集中有30,000个特征。
值是单词/特征出现的重复次数。
下面是数据集的示例
RowID Microsoft Internet PCI Laptop Google AWS iPhone Chrome
1 8 2 0 0 5 1 0 0
2 0 1 0 1 1 4 1 0
3 0 0 0 7 1 0 5 0
4 1 0 0 1 6 7 5 0
5 5 1 0 0 5 0 3 1
6 1 5 0 8 0 1 0 0
-------------------------------------------------------------------------
Total 9,470 821 5 107 4,605 719 25 8
Appearance
有些词在整个数据集中只出现了不到10次。
技术是只选择在数据集中出现的超过一定数量的单词/特征(例如100)。
这种技术叫什么?只使用总出现超过一定数量的特性的特征。
https://datascience.stackexchange.com/questions/117435
复制相似问题