首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >NLP的哪些特征选择技术是这样表示的

NLP的哪些特征选择技术是这样表示的
EN

Data Science用户
提问于 2023-01-01 03:32:10
回答 1查看 37关注 0票数 0

我有来自NLP的技术文档数据集

我的数据集有6万条记录

数据集中有30,000个特征。

值是单词/特征出现的重复次数。

下面是数据集的示例

代码语言:javascript
运行
复制
RowID       Microsoft  Internet  PCI  Laptop  Google  AWS  iPhone  Chrome
1              8          2       0      0      5      1      0       0
2              0          1       0      1      1      4      1       0
3              0          0       0      7      1      0      5       0
4              1          0       0      1      6      7      5       0
5              5          1       0      0      5      0      3       1
6              1          5       0      8      0      1      0       0

-------------------------------------------------------------------------
Total          9,470     821      5     107     4,605  719    25      8
Appearance

有些词在整个数据集中只出现了不到10次。

技术是只选择在数据集中出现的超过一定数量的单词/特征(例如100)。

这种技术叫什么?只使用总出现超过一定数量的特性的特征。

EN

回答 1

Data Science用户

发布于 2023-01-01 12:04:15

我可能没有意识到这一点,但我认为这种技术没有一个术语。我称之为"过滤基于最小频率门限“或类似的。

这是非常普遍的,事实上,我倾向于认为不去做是一个错误,除非有一个很好的理由。其基本原理是,罕见的词汇可能会导致过度贴切,因为它们与特定标签的关联通常是偶然的。

注:我经常提到这一点,例如这里这里那里.

票数 0
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/117435

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档