CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
1.Small But Funny: A Feedback-Driven Approach to Humor Distillation
标题:小而有趣:反馈驱动的幽默蒸馏方法
作者:Sahithya Ravi, Patrick Huber, Akshat Shrivastava, Aditya Sagar, Ahmed Aly, Vered Shwartz, Arash Einolghozati
文章链接:https://arxiv.org/abs/2402.18113
摘要:
大型语言模型(LLMs)的出现带来了有前途的语言生成能力,特别是在执行复杂推理和创造性写作等任务方面。因此,通过模仿教师反应进行提炼已成为一种流行技术,可将知识从 LLMs 转移到更易于访问的小语言模型 (SLM)。虽然这对于简单的任务来说效果很好,但在需要复杂的语言理解和创造力的任务(例如幽默生成)上,存在很大的性能差距。我们假设这种差距可能源于这样一个事实:创造性任务可能很难仅通过模仿来学习,并探索一种涉及教师补充指导的方法是否可以产生更高的表现。为了解决这个问题,我们研究了为 LLM 分配双重角色的效果 - 作为生成数据的“老师”,以及评估学生表现的“评论家”。我们关于幽默生成的实验表明,与仅仅依靠模仿相比,反馈的结合显着缩小了 SLM 与其更大的同类之间的性能差距。因此,我们的研究强调了在通过蒸馏转移复杂语言能力时使用反馈作为数据的附加维度的潜力。
2.Dynamical Regimes of Diffusion Models
标题:扩散模型的动力学机制
作者:Giulio Biroli, Tony Bonnaire, Valentin de Bortoli, Marc Mézard
文章链接:https://arxiv.org/abs/2402.18491
摘要:
利用统计物理方法,我们研究了空间维数和数据量较大的情况下的生成扩散模型,并且得分函数已经过优化训练。我们的分析揭示了后向生成扩散过程中的三种不同的动态机制。从纯噪声开始的生成动力学首先遇到“物种形成”转变,其中数据的总体结构通过类似于相变中对称性破缺的机制被解开。随后发生“崩溃”转变,其中动力学轨迹通过类似于玻璃相冷凝的机制被吸引到记忆的数据点之一。对于任何数据集,可以从相关矩阵的谱分析中找到物种形成时间,并且可以从数据中“过剩熵”的估计中找到崩溃时间。塌陷时间对数据维度和数量的依赖性提供了扩散模型维度灾难的全面表征。高维高斯混合等简单模型的分析解决方案证实了这些发现并提供了理论框架,而对更复杂场景的扩展和使用真实数据集的数值验证则证实了理论预测。
3.Six-Point Method for Multi-Camera Systems with Reduced Solution Space
标题:具有减少解空间的多摄像机系统的六点法
作者:Banglei Guan, Ji Zhao, Laurent Kneip
文章链接:https://arxiv.org/abs/2402.18066
摘要:
使用点对应(PC)的相对姿态估计是一种广泛使用的技术。通用相机最少需要六台 PC 的配置。在本文中,我们提出了几种使用六台 PC 来计算多相机系统的 6DOF 相对位姿的最小解算器,包括用于广义相机的最小解算器和用于双相机装备实际配置的两个最小解算器。方程构造基于旋转和平移的解耦。旋转由凯莱或四元数参数化表示,平移可以通过使用隐变量技术来消除。当 PC 的子集在两个视图中关联相同的相机时,就会发现并证明光线束约束。这是减少解数和生成数值稳定求解器的关键。此外,还枚举了多摄像机系统六点问题的所有配置。大量的实验表明,我们的求解器比最先进的六点方法更准确,同时在效率方面取得了更好的表现。