CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理
Power by Kimi&苏神 编辑丨AiCharm
Subjects: cs.CV
1.Adaptive Deviation Learning for Visual Anomaly Detection with Data Contamination
标题: 用于数据污染视觉异常检测的自适应偏差学习
作者:Anindya Sundar Das, Guansong Pang, Monowar Bhuyan
文章链接:https://arxiv.org/abs/2411.09558
摘要:
视觉异常检测的目标是检测与正常图案明显不同的图像,并且在制造业中识别缺陷零件方面得到了广泛的应用。这些异常检测范例主要集中于仅使用干净、未标记的正常样本(假设不存在污染)来训练检测模型;在现实场景中经常无法满足这一条件。这些方法的性能很大程度上取决于数据的质量,并且在暴露于噪声时通常会降低。我们引入了一种系统的自适应方法,该方法采用偏差学习来计算端到端的异常分数,同时通过为单个实例的权重分配相对重要性来解决数据污染问题。在这种方法中,正常实例的异常分数被设计为近似从已知先验分布获得的标量分数。同时,调整异常示例的异常分数以表现出与这些参考分数的统计显着偏差。我们的方法在偏差学习框架中结合了约束优化问题来更新实例权重,从而解决每个小批量的这个问题。对 MVTec 和 VisA 基准数据集的综合实验表明,我们提出的方法超越了竞争技术,并且在存在数据污染的情况下表现出稳定性和鲁棒性。
这篇论文试图解决什么问题?
这篇论文试图解决的是视觉异常检测(Visual Anomaly Detection, VAD)中的数据污染问题。具体来说,论文中提到大多数现有的视觉异常检测方法主要关注于使用干净、未标记的正常样本来训练检测模型,并且假设这些数据中没有污染;然而在现实世界的应用场景中,这种假设往往不成立,因为数据经常受到污染或包含噪声标签,这可能是由于人工标注过程中的错误或从旧系统中继承的标签错误所导致的。这些污染数据会导致模型性能显著下降。因此,论文提出了一种系统自适应的方法,该方法采用偏差学习(Deviation Learning)来端到端计算异常分数,并通过为单个实例的权重分配相对重要性来解决数据污染问题。
论文如何解决这个问题?
论文通过提出一个名为**自适应偏差学习(Adaptive Deviation Learning, ADL)**的框架来解决视觉异常检测中的数据污染问题。该框架主要包含以下几个关键步骤和组件:
通过上述方法,论文成功地提出了一个能够处理数据污染问题的视觉异常检测框架,并在实验中验证了其有效性。
论文做了哪些实验?
论文中进行了一系列实验来评估所提出的自适应偏差学习(ADL)方法的性能,并与现有的一些最先进的异常检测技术进行比较。具体的实验设置和结果如下:
这些实验全面评估了ADL方法在处理数据污染问题时的有效性和鲁棒性,并与现有技术进行了比较,证明了ADL方法的优势。
论文的主要内容:
这篇论文提出了一种名为自适应偏差学习(Adaptive Deviation Learning, ADL)的框架,用于在数据污染的情况下进行视觉异常检测。以下是论文的主要内容总结:
总体而言,这篇论文通过引入自适应偏差学习框架,有效地解决了视觉异常检测中的数据污染问题,并在多个数据集上展示了其优越的性能。
2.CATCH: Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs
标题:CATCH:补充自适应令牌级对比解码以减轻 LVLM 中的幻觉
作者:Zhehan Kan, Ce Zhang, Zihan Liao, Yapeng Tian, Wenming Yang, Junyuan Xiao, Xu Li, Dongmei Jiang, Yaowei Wang, Qingmin Liao
文章链接:https://arxiv.org/abs/2411.12713
摘要:
大型视觉语言模型 (LVLM) 系统已展现出令人印象深刻的视觉语言推理能力,但存在普遍且严重的幻觉问题,在医疗保健和自主系统等关键领域构成重大风险。尽管之前为减轻幻觉做出了努力,但一个持续存在的问题仍然存在:视觉语言错位导致的视觉缺陷,造成视觉处理能力的瓶颈。为了应对这一挑战,我们基于信息瓶颈理论开发了补充自适应令牌级对比解码以减轻 LVLM 中的幻觉 (CATCH)。CATCH 引入了用于视觉信息分离的互补视觉解耦 (CVD)、用于幻觉检测的非视觉筛选 (NVS) 以及用于缓解幻觉的自适应令牌级对比解码 (ATCD)。CATCH 解决了与视觉缺陷相关的问题,这些问题导致开放式场景中细粒度特征感知减弱和累积幻觉。它适用于各种视觉问答任务,无需任何特定数据或先验知识,并且无需额外培训即可稳健地推广到新任务,为在各种具有挑战性的应用中推进 LVLM 开辟了新的可能性。
这篇论文试图解决什么问题?
这篇论文试图解决大型视觉语言模型(LVLMs)中的幻觉问题(hallucinations)。幻觉指的是模型生成的文本内容与视觉输入不一致的现象,这在诸如医疗和自动驾驶等关键领域中可能带来重大风险。具体来说,论文中提到的幻觉问题主要源于视觉和语言信息之间的不对齐,导致视觉处理能力受限,从而产生视觉缺陷。这个问题被称为“视觉缺陷”(visual defect),它导致模型在处理整个图像时无法进行精确的视觉-语言推理,尤其是在存在大量无关信息时。此外,在开放式场景中,这种偏差会随着每个令牌生成步骤的进行而传播和累积,使得保持关键视觉信息变得越来越困难,从而阻碍了精确推理。论文提出的解决方案是开发一种名为CATCH(Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs)的方法,该方法基于信息瓶颈理论,通过引入互补视觉解耦(Complementary Visual Decoupling, CVD)、非视觉筛选(Non-Visual Screening, NVS)和自适应令牌级对比解码(Adaptive Token-level Contrastive Decoding, ATCD)来检测和减轻由视觉缺陷引起的幻觉。
论文如何解决这个问题?
文通过提出一个名为CATCH(Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs)的方法来解决大型视觉语言模型(LVLMs)中的幻觉问题。CATCH方法基于信息瓶颈理论,包括三个主要组件:Complementary Visual Decoupling(CVD)、Non-Visual Screening(NVS)和Adaptive Token-level Contrastive Decoding(ATCD)。以下是这三个组件的具体作用和解决方案:
总的来说,CATCH方法通过解耦视觉信息、检测幻觉和动态调整解码策略,有效地减轻了LVLMs中的幻觉问题,并提高了模型在开放场景中对细粒度特征的感知能力和抗累积幻觉的能力。这种方法不需要额外的数据或训练,可以无缝集成到各种LVLMs中,并在多个基准测试中显示出显著的性能提升。
论文做了哪些实验?
论文中进行了多项实验来评估CATCH方法在减少大型视觉语言模型(LVLMs)幻觉方面的效果。以下是实验的详细情况:
这些实验全面评估了CATCH方法在不同场景和任务下的性能,证明了其在减少幻觉和提高LVLMs鲁棒性方面的有效性。通过这些实验结果,论文展示了CATCH作为一种有效的解决方案,能够在各种视觉问答任务中减轻幻觉问题,并且具有很好的泛化能力。
论文的主要内容:
这篇论文的主要内容是关于如何减轻大型视觉语言模型(LVLMs)中的幻觉问题。幻觉问题指的是模型生成的文本内容与视觉输入不一致的现象,这在某些关键领域如医疗和自动驾驶中可能带来严重的后果。论文识别出幻觉的一个主要来源是视觉处理瓶颈,即视觉和语言信息不对齐导致的视觉缺陷。为了解决这个问题,论文提出了一个名为CATCH(Complementary Adaptive Token-level Contrastive Decoding to Mitigate Hallucinations in LVLMs)的方法,该方法基于信息瓶颈理论,包含以下三个关键组件:
论文通过在POPE、MME和CHAIR等多个评估数据集上的实验验证了CATCH方法的有效性。实验结果表明,CATCH在减少幻觉和提高模型对细粒度特征的感知能力方面表现出色,并且能够显著延迟累积幻觉的发生。此外,CATCH方法不需要额外的数据或训练,可以无缝集成到各种LVLMs中,并在多个基准测试中显示出显著的性能提升。
最后,论文讨论了CATCH方法的潜在影响,并提出了未来可能的研究方向,包括模型架构优化、多模态融合技术改进、对比解码策略的进一步研究,以及CATCH在跨领域应用和实际部署中的潜力。
3.Tackling prediction tasks in relational databases with LLMs
标题: 使用LLMs解决关系数据库中的预测任务
作者: Marek Wydmuch, Łukasz Borchmann, Filip Graliński
文章链接:https://arxiv.org/abs/2304.06018
摘要:
尽管大型语言模型 ( LLMs ) 在解决众多问题上表现出了卓越的性能,但它们在关系数据库中的预测任务中的应用在很大程度上仍未得到探索。在这项工作中,我们解决了LLMs由于关系数据库的互连表、复杂关系和异构数据类型而无法在关系数据库上产生令人满意的结果的概念。使用最近推出的 RelBench 基准测试,我们证明即使是LLMs的简单应用也能在这些任务上实现具有竞争力的性能。这些发现将LLMs确立为关系数据库机器学习的一个有前途的新基线,并鼓励在这个方向进行进一步的研究。
这篇论文试图解决什么问题?
这篇论文探讨了如何将大型语言模型(LLMs)应用于关系数据库中的预测任务。具体来说,论文试图解决的问题是:
综上所述,论文的主要贡献在于展示了LLMs在处理关系数据库预测任务时的潜力,并提出了一种简单的方法来构建信息丰富的文档,使LLMs能够进行有效的预测。
论文如何解决这个问题?
论文通过以下步骤解决将大型语言模型(LLMs)应用于关系数据库预测任务的问题:
论文选用了RelBench这一现实且易于获取的基准,它包含了不同领域的7个关系数据库和30个预测任务。这使得研究可以在一个标准化且具有挑战性的数据集上进行。
提出了一种将关系数据库中的预测问题表示为文本文档的方法。每个测试样本都会被转换成包含以下三个部分的文档:
通过反规范化过程,沿着外键到主键的链接,收集与所有加入过程中的实体相关的链接,并递归地选择这些表中的最多nnest
个实体。这个过程可以高效地在数据库上执行,如果为所有主键和外键构建了哈希索引。
选择JSON格式来序列化实体,因为它适合作为表格数据的文本表示,并且可以嵌套来自其他表的行。这减少了LLM进行多跳推理的需求。
对于回归任务,除了度量感知推理外,还尝试了在小部分训练文档上训练一个小型多层感知器(MLP)头,以提高预测性能。
将提出的方法与RelBench上报告的基线(如LightGBM模型和关系深度学习方法RDL)进行比较,展示了LLMs在关系数据库预测任务中的潜力。
通过这些步骤,论文不仅展示了LLMs在关系数据库预测任务中的有效性,而且还建立了一个新的简单基线,为未来的研究提供了方向。
论文做了哪些实验?
论文中进行的实验主要包括以下几个方面:
ninc
)、相关示例(nrel
)、链接表中的嵌套行数(nnest
)和关系图遍历深度(d
)。ninc
、nrel
、nnest
和d
的不同值。ntrain
)和MLP架构(单隐藏层,大小为10)。这些实验旨在验证LLMs在关系数据库预测任务中的有效性,并与现有的基线方法进行比较。通过这些实验,论文展示了LLMs在这些任务中的潜力,并提出了一种新的方法来构建信息丰富的文档,以便LLMs能够进行有效的预测。
论文的主要内容:
这篇论文主要探讨了如何将大型语言模型(LLMs)应用于关系数据库中的预测任务。以下是论文的主要内容总结:
总体而言,这篇论文为LLMs在关系数据库预测任务中的应用提供了新的视角,并建立了一个新的基线,为未来的研究提供了方向。