首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

加州大学研究人员开发视觉语言模型 BLIVA,以更好地处理包含文本的图像

据站长之家 8 月 28 日报道,加州大学圣地亚哥分校的研究人员开发了一种视觉语言模型 BLIVA,旨在更好地处理包含文本的图像。视觉语言模型(VLM)通过合并视觉理解功能来扩展大型语言模型 (LLM),以回答有关图像的问题。

据悉,BLIVA 结合了两种互补的视觉嵌入类型:一种是 Salesforce InstructBLIP 提取的学习查询嵌入,用于关注与文本输入相关的图像区域;另一种是受 Microsoft LLaVA 启发提取的编码修补嵌入,直接从完整图像的原始像素修补中获得。

  • 发表于:
  • 原文链接https://page.om.qq.com/page/OB6-6IUhPDfNF1Sjjnf5DSSQ0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券