首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
您找到你想要的搜索结果了吗?
是的
没有找到

视觉的跨界 Wiki-LLaVA | lmage + Question 的奇妙反应,生成多模态大型语言模型(MLLMs)!

近期,大型语言模型(LLM)在零样本文本任务中展现了令人印象深刻的性能。特别是,近期的研究设计出了能够根据用户指示处理多样任务的模型[6, 30, 41]。在这个背景下,经典的方法是在多种通过自然语言描述的任务上微调模型[7, 34],从而使模型能够吸收外部提供的指示,并促进在多个领域内的强大泛化能力。 在这些进展之后,计算机视觉界开始研究将这些模型扩展到视觉和语言的情境中,从而生成多模态大型语言模型(MLLMs)。在这方面,通过视觉到语言的 Adapter 将视觉特征融合到LLM的主干中,引起了显著的性能提升,使得对需要精心设计的视觉描述的视觉和语言任务能够广泛泛化。

01
领券