首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

【机器学习】你需要多少训练数据?

从谷歌的机器学习代码中得知,目前需要一万亿个训练样本。 训练数据的特性和数量是决定一个模型性能好坏的最主要因素。一旦你对一个模型输入比较全面的训练数据,通常针对这些训练数据,模型也会产生相应的结果。但是,问题是你需要多少训练数据合适呢?这恰恰取决于你正在执行的任务、最终想通过模型实现的性能、现有的输入特征、训练数据中含有的噪声、已经提取的特征中含有的噪声以及模型的复杂性等等诸多因素。所以,发现所有这些变量相互之间有何联系,如何工作的方法即是通过在数量不一的训练样本上训练模型,并且绘制出模型关于各个训练样本集

05

每日论文速递 | 用于参数高效微调的小型集成LoRA

摘要:参数高效微调(PEFT)是一种流行的方法,用于裁剪预训练的大型语言模型(LLM),特别是随着模型规模和任务多样性的增加。低秩自适应(LoRA)基于自适应过程本质上是低维的想法,即,显著的模型变化可以用相对较少的参数来表示。然而,与全参数微调相比,降低秩会遇到特定任务的泛化错误的挑战。我们提出了MELoRA,一个迷你合奏低秩适配器,使用较少的可训练参数,同时保持较高的排名,从而提供更好的性能潜力。其核心思想是冻结原始的预训练权重,并训练一组只有少量参数的迷你LoRA。这可以捕获迷你LoRA之间的显著程度的多样性,从而促进更好的泛化能力。我们对各种NLP任务进行了理论分析和实证研究。我们的实验结果表明,与LoRA相比,MELoRA在自然语言理解任务中的可训练参数减少了8倍,在指令跟随任务中的可训练参数减少了36倍,从而实现了更好的性能,这证明了MELoRA的有效性。

01

DRT: A Lightweight Single Image Deraining Recursive Transformer

过度参数化是深度学习中常见的技术,以帮助模型学习和充分概括给定的任务;然而,这往往导致巨大的网络结构,并在训练中消耗大量的计算资源。最近在视觉任务上强大的基于Transformer的深度学习模型通常有很重的参数,并承担着训练的难度。然而,许多密集预测的低级计算机视觉任务,如去除雨痕,在实践中往往需要在计算能力和内存有限的设备上执行。因此,我们引入了一个基于递归局部窗口的自注意结构,并提出了去雨递归Transformer(DRT),它具有Transformer的优越性,但需要少量的计算资源。特别是,通过递归结构,我们提出的模型在去雨中只使用了目前表现最好的模型的1.3%的参数数量,同时在Rain100L基准上超过最先进的方法至少0.33dB。消融研究还调查了递归对去雨结果的影响。此外,由于该模型不是刻意为去雨设计的,它也可以应用于其他图像复原任务。我们的实验表明,它可以在去雪上取得有竞争力的结果。

02
领券