我从别人那里接过一些代码,我的任务是在pytorch中重现相同的模型和性能。我也得到了该模型的最佳超参数。在尝试了很长一段时间后,我发现如果我将drop - out rate设置为0,那么我的测试性能是最好的。它停止得越早,失落率就越小。事实上,它的表现比以前的模型要好一点。而之前的模型有显着的辍读率。
数据大小约为3300万行。神经网络大概有4-5层。总输入嵌入约为1000。虽然我很高兴看到这场表演,但我想知道这是不是某种危险信号。因为如果没有辍学,我就没有其他的正则化了。它在这方面的表现很好,这可能意味着可能存在一些数据泄漏或其他什么?在这种情况下,寻找一些关于dropout的智慧。
发布于 2020-10-13 20:17:11
有时候,这样的事情会发生。有一次我的神经网络不工作了,所以我被建议在其中添加批处理归一化层,然后它就工作得很好。但是在另一个问题中,批处理标准化使我的神经网络变得更糟。这都要归功于反向传播。有时,添加一些层会使神经网络陷入局部最小值,而有时它有助于摆脱局部最小值。我不太确定为什么会这样,但我认为这是因为BackPropagation。
可能是一些数据泄露还是什么?
答案是否定的。这仅仅是因为反向传播。
注意-如果你觉得我在这篇文章中的任何地方都是错的,那么请评论它。
https://stackoverflow.com/questions/64331729
复制相似问题