首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

深度学习模型陷阱:哈佛大学与OpenAI首次发现“双下降现象”

近日,哈佛大学Preetum Nakkiran等研究者与人工智能研究组织OpenAI的研究者Ilya Sutskever最新研究发现,包括卷积神经网络(Convolutional Neural Networks,CNNs)、残差网络(Residual Networks,ResNets)与Transformers的许多现代深度学习模型均会出现“双下降现象”(Double Descent Phenomenon):随着模型大小、数据大小或训练时间的增加,性能先提高,接着变差,然后再提高。其峰值出现在一个“临界区”,即当模型几乎无法拟合训练集时。当增加神经网络中的参数数目时,测试误差最初会减小、增大,而当模型能够拟合训练集时测试误差会经历第二次下降。这种效果通常可以通过仔细的正则化来避免。虽然这种行为似乎相当普遍,但我们尚未完全了解其发生的原因,因此这是一个值得进一步研究的重要研究方向。

05
领券