首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

香港理工大学 & 腾讯实验室提出 PoserLLaVa 方法在内容感知布局生成中实现SOTA性能 !

尽管以前的方法在某些数据集上展示了进展,但它们大多数依赖于高度定制的网络结构,缺乏普遍性。这种特定性需要大量的修改或完全重新设计,以适应新的或不同的布局设计挑战。认识到这一局限性,作者开发了一个名为PosterLAVa的统一框架(见图1),用于布局生成任务,该框架受到了最近发布的多模态指令调优方法的简单性和有效性的启发。通过大量 未标注 语料库的预训练和根据指令跟随数据的微调,多模态大型语言模型(MLIMs)能够根据给定的指令及其背景知识处理多个视觉-语言任务(例如,视觉问答(VQA)(Wang et al., 2019; Wang et al., 2019),视觉定位。

01
  • 您找到你想要的搜索结果了吗?
    是的
    没有找到
    领券