文章/答案/技术大牛

发布

社区首页 >问答首页 >动态删除训练数据集中的数据

问动态删除训练数据集中的数据
EN

Data Science用户

提问于 2023-02-07 19:43:07

回答 2查看 36关注 0票数 1

我今天想知道，在学习神经网络时，动态地从训练数据集中删除数据是否是一种好方法。假设有一个分类任务，这种方法将类似于

为一个时代而训练网络。
删除训练数据集中的低熵、分类正确的元素，即网络对预测的把握和预测的正确性。
回到1。
不时检查以前丢弃的结果是否仍然是确定和正确分类的。

使用这种方法，可以减少训练时间，同时保持模型的准确性。

有人知道这是什么可以做的事吗？我知道这种方法类似于主动学习，在这种情况下，你只能用低确定性来标记元素，但这种方法正好相反:我们对所有元素都有标签，但我们决定放弃其中一些元素，以使培训更快。

machine-learning

deep-learning

neural-network

training

回答 2

Data Science用户

发布于 2023-02-08 01:34:18

你所描述的通常被称为课程学习，训练过程中小批量的非均匀抽样.课程学习已被证明可以提高学习速度和提高测试数据的最终表现。

票数 0

Data Science用户

发布于 2023-02-08 08:04:05

你的方法的问题是灾难性的遗忘。如果你只对上一个时代没有正确分类的样本进行训练，那么，在训练下一个时代之后，你的模型将在“容易的数据”上表现不佳，因为它与困难的数据相适应。

此外，模型在一个时代开始时的行为与结束时的行为有很大的不同，因此，为了正确地实现您提出的方法，您需要再次对那个时代使用的整个训练数据进行推理。这当然是非常昂贵的。

你提出的建议有点像一种叫做“助推”的技术，但不是使用单一的模型，而是按顺序训练不同的模型。第一个模型是针对所有数据进行培训的。第二个模型的训练集中在第一个模型表现不好的数据上(根据先前模型预测的正确性，数据被赋予“权重”，权重从一个模型增加到另一个模型)。诸若此类。然而，随着第一个模型的提升，在对所有数据进行训练之后再也不会被触及，因此它保留了它的分类能力。此外，boosting通常与“弱”分类器(即不是深度神经网络)一起使用，尽管不一定。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/118359

复制

相似问题

问动态删除训练数据集中的数据
EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问动态删除训练数据集中的数据EN

回答 2

Data Science用户

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问动态删除训练数据集中的数据
EN