首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

ResNet架构可逆!多大等提出性能优越的可逆残差网络

神经网络模型的一个主要诉求是用单个模型架构解决各种相关任务。然而,最近的许多进展都是针对特定领域量身定制的特定解决方案。例如,无监督学习中的当前最佳架构正变得越来越具有领域特定性 (Van Den Oord et al., 2016b; Kingma & Dhariwal, 2018; Parmar et al., 2018; Karras et al., 2018; Van Den Oord et al., 2016a)。另一方面,用于判别学习的最成功的前馈架构之一是深度残差网络 (He et al., 2016; Zagoruyko & Komodakis, 2016),该架构与对应的生成模型有很大不同。这种划分使得为给定任务选择或设计合适架构变得复杂。本研究提出一种在这两个领域都表现良好的新架构,弥补了这一差距。

02

每日论文速递 | MIT新作:使用多个大模型协作decode

摘要:我们提出了一种方法,通过在token level交错使用多个大语言模型(LLM),让它们学会协作。我们将由哪个 LLM 生成下一个token的决定建模为一个潜变量。通过在我们的潜变量模型下优化训练集的边际可能性,base LLM 会自动学习何时自行生成,何时调用其中一个 "辅助 "语言模型生成,所有这一切都无需直接监督。解码过程中的token level协作可以根据手头的具体任务融合每个模型的专长。我们的协作解码尤其适用于跨领域环境,在这种环境中,通用base LLM 会学习调用领域专家模型。在指令遵循、特定领域质量保证和推理任务中,我们证明联合系统的性能超过了单个模型。通过对所学潜在决策的定性分析,我们发现用我们的方法训练出来的模型表现出几种有趣的协作模式,例如模板填充。

01
领券