文章/答案/技术大牛

发布

社区首页 >问答首页 >NLP的哪些特征选择技术是这样表示的

问NLP的哪些特征选择技术是这样表示的
EN

Data Science用户

提问于 2023-01-01 03:32:10

回答 1查看 37关注 0票数 0

我有来自NLP的技术文档数据集

我的数据集有6万条记录

数据集中有30,000个特征。

值是单词/特征出现的重复次数。

下面是数据集的示例

RowID       Microsoft  Internet  PCI  Laptop  Google  AWS  iPhone  Chrome
1              8          2       0      0      5      1      0       0
2              0          1       0      1      1      4      1       0
3              0          0       0      7      1      0      5       0
4              1          0       0      1      6      7      5       0
5              5          1       0      0      5      0      3       1
6              1          5       0      8      0      1      0       0

-------------------------------------------------------------------------
Total          9,470     821      5     107     4,605  719    25      8
Appearance

有些词在整个数据集中只出现了不到10次。

技术是只选择在数据集中出现的超过一定数量的单词/特征(例如100)。

这种技术叫什么？只使用总出现超过一定数量的特性的特征。

nlp

feature-selection

feature-engineering

feature-extraction

回答 1

Data Science用户

发布于 2023-01-01 12:04:15

我可能没有意识到这一点，但我认为这种技术没有一个术语。我称之为"过滤基于最小频率门限“或类似的。

这是非常普遍的，事实上，我倾向于认为不去做是一个错误，除非有一个很好的理由。其基本原理是，罕见的词汇可能会导致过度贴切，因为它们与特定标签的关联通常是偶然的。

注:我经常提到这一点，例如这里，这里，那里.

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/117435

复制

相似问题

问NLP的哪些特征选择技术是这样表示的
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NLP的哪些特征选择技术是这样表示的EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问NLP的哪些特征选择技术是这样表示的
EN