首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往

LLaVA-1.5:号称可以和ChatGPT-4V硬刚的开源多模态AI模型,我们来看看究竟如何!

大家最近可能被多模态ChatGPT-4V的多模态功能惊艳到了!能听、能说、能读图!感觉未来已来!

开源领域也不甘示弱,今天给大家带来一个开源视觉指令微调模型LLaVA-1.5!

LLaVA-1.5是一个由Language, Logic, and Vision Alignment (LLaVA)团队开发的多模态预训练模型,它可以同时处理文本、图像和其他类型的数据,实现跨模态的理解和生成。

LLaVA-1.5是目前最大的多模态预训练模型之一,它拥有15亿个参数,比之前的LLaVA-1.0模型增加了50%。

团队主要开发者是来都是自浙大毕业的,下面是开发者介绍。

它采用了一个统一的Transformer架构,将不同类型的数据编码为相同维度的向量,然后通过自注意力机制进行交互和融合。

它使用了一个大规模的多模态数据集进行预训练,包括文本、图像、视频、音频、表格、公式等多种数据类型,涵盖了科学、艺术、文化、娱乐等多个领域。(数据集见文末)

LLaVA-1.5的能做什么?

它可以理解用户的视觉和语言查询,并根据用户的指示以适当的方式回答。 例如,它可以根据图片内容生成描述、回答问题、编辑图片等。

它可以在多个任务中切换模式,而不需要针对每个任务单独训练一个模型。例如,它可以在视觉问答、图像描述、图像编辑等任务中自由切换。

它使用了多模态指令数据进行训练,这些数据是由GPT-4自动生成的图像-文本对话数据,而不是使用现有的数据集。这使得LLaVA-1.5可以更好地适应用户的指令格式和需求。

它使用了一个简单而有效的视觉-语言连接器,即一个线性层,将图像特征投影到语言嵌入空间中。这使得LLaVA-1.5具有轻量级、成本低等优势。

LLaVA-1.5能力如何?

虽然介绍的能力很强,但是我在实际体验中,发现它引以为傲的图片识别还是没有GPT4准确,当然,我得测评只是参考,具体还是大家自行体会。

我上传了一个菜单,让LLaVA-1.5和GPT4一起给我分析,并告诉我里面的价格。

GPT4给出了正确的答案;

LLaVA也是可以的,正确识别了。

那我换一个继续提问,让他们告诉我"原味芝士牛肉"的价格(正确的应该为32)

GPT4回答正确!再看看LLaVA

很可惜,它回答错误了!

个人的一点点看法!

LLaVA-1.5很不错!作为一款开源视觉指令微调模型,LLaVA在视觉推理能力方面的表现出色!在目前的开源领域属于能力很强的那部分;

而且据官方介绍,在单个 8-A100 节点上约 1 天完成训练,超越 Qwen-VL-Chat 等使用十亿级数据的。这说明在小投入的情况下也能获得获得很好的性能体验,所以对于一些没有那么豪横的个人和公司来说是个不错的方案;

但是!

在和ChatGPT-4V对比之后,我看来两个差距还是不小的;

虽然很多开源的AI大模型都说自己超于了ChatGPT-4V , 但是难免让人想起了雷总对比法。

这些AI模型都是测评没输过,实际依旧打不过。ChatGPT依旧是孤独求败~

目前来看,AI大模型还是只有两种;chatGPT 和 其他!

LLaVA-1.5项目地址:

https://llava-vl.github.io/

代码开源地址:

https://github.com/haotian-liu/LLaVA

体验网址(可以来试试,亲身体验下):

https://llava.hliu.cc/

  • 发表于:
  • 原文链接https://page.om.qq.com/page/O472bP_tAaaUED49YO_VNnpA0
  • 腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号(企鹅号)传播渠道之一,根据《腾讯内容开放平台服务协议》转载发布内容。
  • 如有侵权,请联系 cloudcommunity@tencent.com 删除。

相关快讯

扫码

添加站长 进交流群

领取专属 10元无门槛券

私享最新 技术干货

扫码加入开发者社群
领券