首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >避免NLP提取中的泄漏

避免NLP提取中的泄漏
EN

Data Science用户
提问于 2022-09-03 17:09:21
回答 1查看 74关注 0票数 1

应用传统NLP提取技术对ML模型进行预处理的最佳实践是什么?

如果有管道:

  1. 收集原始数据。
  2. 使用各种传统的NLP技术解析完整的数据集,以创建与模型兼容的特性(例如,实体提取的一个热编码矩阵)。
  3. 对数据进行ML模型的训练。

我的直觉说你必须在第一步和第二步之间分割数据,例如,在你的训练集上只运行TF-国防军或NMF。

But,我在论文和生产中看到了很多,非深度学习NLP技术通常在数据分割之前使用。

EN

回答 1

Data Science用户

回答已采纳

发布于 2022-09-06 03:21:14

最好的做法是将数据分成训练和测试数据集。仅在列车数据集上进行建模选择。在测试数据集中评估这些选择的有用性。

传统的NLP提取技术遵循相同的逻辑,因为它们通常有建模选择。一个例子是非负矩阵分解(NMF)中的主题数量.最佳实践是选择培训数据集上的主题数量,然后评估测试数据集上这些主题的质量。

同样的逻辑适用于对统计量进行估计,然后对该统计数据进行建模选择。TF-国防军(术语频率-逆文档频率)是一个常见的例子.最好的做法是估计训练集上的tf-以色列国防军,因为以后的建模选择是基于tf-以色列国防军的统计数据作出的(或不作出)。

票数 2
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/114071

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档