首页
学习
活动
专区
工具
TVP
发布

我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿,“有价值有深度”。www.52cv.net QQ群: 805388940
专栏作者
803
文章
806824
阅读量
61
订阅数
字节、华师、华科联合提出TextSquare,8B参数量的文字多模态大模型指标逼近GPT4V
近期多模态大模型(MLLM)在文本中心的VQA领域取得了显著进展,尤其是多个闭源的例如GPT4V和Gemini,甚至在某些方面展现了超越人类的能力。但是开源模型的性能还远远落后于闭源模型,最近许多开创性的研究例如MonKey、LLaVAR、TG-Doc、ShareGPT4V等已开始关注指令微调数据不足的问题,尽管这些努力取得了显著的效果,但仍存在一些问题,图像描述数据和VQA数据属于不同的领域,图像内容呈现的粒度和范围存在不一致性。此外,合成数据的规模相对较小,使得MLLM无法充分发挥潜力。
CV君
2024-04-25
510
CVPR 2024 | 腾讯优图实验室20篇论文入选,含图文多模态大模型、高分辨视觉分割、跨模态生成、人脸识别等研究方向
近日,CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际计算机视觉与模式识别会议公布了论文录用结果。
CV君
2024-04-25
1260
第一个基于 Llama-3 的多模态大模型, Bunny-Llama-3-8B-V 正式上线
Bunny 团队推出第一个基于 Llama-3 的多模态大模型!Bunny-Llama-3-8B-V 正式上线,超越一众如 LLaVA-7B、LLaVA-13B、Mini-Gemini-13B 模型。在众多主流 Benchmark 上表现良好,具有更好的识别、数学和推理能力。
CV君
2024-04-25
390
CVPR 2024 | LiDM:首个可以根据多模态条件生成逼真的激光雷达场景方法,加速107倍
本篇文章分享 CVPR 2024 论文LiDAR Diffusion:Towards Realistic Scene Generation with LiDAR Diffusion Models,利用激光雷达扩散模型生成逼真场景。
CV君
2024-04-25
370
生图超级外挂!贾佳亚团队提出VLM模型Mini-Gemini,堪比GPT4+DALLE3王炸组合
更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,香港中文大学终身教授贾佳亚团队提出的这款多模态模型Mini-Gemini堪称绝绝子,相当于开源社区的GPT4+DALLE3的王炸组合!
CV君
2024-04-18
770
CVPR 2024 | 文本或图像提示精准编辑3D场景,美图&信工所&北航&中大联合提出3D编辑方法CustomNeRF
美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF,同时支持文本描述和参考图像作为3D场景的编辑提示,该研究成果已被CVPR 2024接收。
CV君
2024-04-18
1370
西湖大学&浙江大学提出 Cobra,基于状态空间语言模型扩展的多模态大语言模型,更大规模、更轻量级
本文分享论文Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient Inference,由西湖大学&浙江大学联合提出一种基于状态空间语言模型扩展的多模态大语言模型。
CV君
2024-03-27
1650
神奇!AI扩图&改图还能这么玩?
最近,靠着出其不意的扩图效果,“AI扩图”功能凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180度的大反转也让网友们直呼离谱,话题热度高居不。
CV君
2024-03-26
1020
PSLNet | 西工大&广西师大&港中文联合提出一种基于感知自监督卷积神经网络的噪声图像去水印方法
本文分享论文Perceptive self-supervised learning network for noisy image watermark removal,由西工大&广西师大&港中文联合提出一种基于感知自监督学习网络的噪声图像去水印方法。
CV君
2024-03-25
740
CVPR 2024 | GLEE 华科与字节跳动联手打造全能目标感知基础模型
近年来,LLM在文本处理的领先地位和视觉模型如CLIP在多模态任务上优秀的泛化表现,展示了基础模型在推进多模态感知、理解、生成方面的强大潜力。
CV君
2024-03-25
1980
7B 最强多模态文档理解大模型 mPLUG-DocOwl 1.5
多模态大模型 Multimodal LLM (MLLM) 相关研究致力于实现通用的图片理解,其中类别多样、文字丰富且排版复杂的文档图片一直是阻碍多模态大模型实现通用的痛点。当前爆火的多模态大模型QwenVL-Max, Gemini, Claude3, GPT4V都具备很强的文档图片理解能力,然而开源模型在这个方向上的进展缓慢,距离这些闭源大模型具有很大差距 (例如DocVQA上开源7B SOTA 66.5,而Gemini Pro 1.5为86.5)。
CV君
2024-03-25
2250
CVPR 2024 | 百度提出视觉新骨干ViT-CoMer,刷新密集预测任务SOTA
本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Feature Interaction for Dense Predictions,由百度提出视觉新骨干 ViT-CoMer,刷新密集预测任务 SOTA。
CV君
2024-03-25
3180
SWCNN | 西工大&哈工大& 台湾清华大学联合提出一种基于自监督卷积神经网络的图像去水印方法
本文分享论文A self-supervised CNN for image watermark removal,由西工大& 哈工大&台湾清华大学联合提出一种基于自监督卷积神经网络的图像去水印方法。
CV君
2024-03-25
930
CVPR 2024 | SVGDreamer: 北航&港大发布全新文本引导的矢量图形可微渲染方法
本篇分享 CVPR 2024 论文SVGDreamer: Text Guided SVG Generation with Diffusion Model,由北航&港大发布全新文本引导的矢量图形可微渲染方法,SVGDreamer。
CV君
2024-03-25
1620
玩不到 Sora,先提前了解一下文生视频的提示词?
在数字媒体和⼈⼯智能技术飞速发展的今天,视频内容的创作和表达⽅式正经历着翻天覆地的变化。Sora的出现不仅代表了⽂本到视频转换技术的重⼤进步,更开启了视频创作的全新时代。想象⼀下,只需通过简单的⽂字描述,就能⽣成⽣动、⾼质量的视频,这将为故事讲 述、沉浸式体验和内容创作带来⾰命性的变⾰。
CV君
2024-03-13
1010
算力加速人脸识别技术发展:一文了解人脸识别开源库和数据集
人脸识别在我们的生活中随处可见,例如在大楼门禁系统中,它取代了传统的门禁卡或密码,提高了进出的便捷性和安全性。在商场安保方面,人脸识别被广泛应用于监控系统,有助于识别和跟踪潜在的犯罪嫌疑人或失踪人员,提升了安全防范的能力。另外,手机解锁也是人脸识别技术的重要应用之一,它为用户提供了一种快捷、便利的身份验证方式,替代了传统的密码或指纹识别。
CV君
2024-03-13
2820
不止有SORA!一文带你了解 AI 视频生成技术的探索与趋势
随着科技的不断进步,生活中所见的一切已经不再局限于现实。在这个数字化时代,无论是图片、视频,还是其他形式的媒体内容,都有可能是通过 AI 算法生成的。精彩的场景、动人的情节,甚至栩栩如生的角色,都可能是由 AI 算法创造出来的。当你观看一段视频时,你是否曾思考过这个问题:这是一个真实的视频,还是由 AI 算法生成的呢?
CV君
2024-03-05
1550
2张图2秒钟3D重建!这款AI工具火爆GitHub,网友:忘掉Sora
这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。
CV君
2024-03-05
1230
基于扩散模型的图像编辑:首篇综述
AIGC 大模型最火热的任务之一——基于 Diffusion Model 的图像编辑(editing)领域的首篇综述。长达 26 页,涵盖 297 篇文献!本文全面研究图像编辑前沿方法,并根据技术路线精炼地划分为 3 个大类、14 个子类,通过表格列明每个方法的类型、条件、可执行任务等信息。此外,本文提出了一个全新 benchmark 以及 LMM Score 指标来对代表性方法进行实验评估,为研究者提供了便捷的学习参考工具。强烈推荐 AIGC 大模型研究者或爱好者阅读,紧跟热点。
CV君
2024-03-05
1430
MoE-LLaVA——将多模态大模型稀疏化
MoE-LLaVA只有3B个稀疏激活参数,表现与LLaVA-1.5-7B在各种视觉理解数据集上相当,并且在物体幻觉基准测试中甚至超越了LLaVA-1.5-13B。通过MoE-LLaVA,我们旨在建立稀疏LVLMs的基准,并为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。并且MoE-LLaVA团队已经开放了所有的数据、代码和模型。
CV君
2024-02-06
3110
点击加载更多
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档