暂无搜索历史
近期多模态大模型(MLLM)在文本中心的VQA领域取得了显著进展,尤其是多个闭源的例如GPT4V和Gemini,甚至在某些方面展现了超越人类的能力。但是开源模型...
近日,CVPR 2024 (IEEE Conference on Computer Vision and Pattern Recognition) IEEE国际...
Bunny 团队推出第一个基于 Llama-3 的多模态大模型!Bunny-Llama-3-8B-V 正式上线,超越一众如 LLaVA-7B、LLaVA-13B...
本篇文章分享 CVPR 2024 论文LiDAR Diffusion:Towards Realistic Scene Generation with LiDAR...
更高清图像的精确理解、更高质量的训练数据、更强的图像解析推理能力,还能结合图像推理和生成,香港中文大学终身教授贾佳亚团队提出的这款多模态模型Mini-Gemin...
美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了3D场景编辑方法——CustomNeRF,同时支持文本描述和参考图...
本文分享论文Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient I...
最近,靠着出其不意的扩图效果,“AI扩图”功能凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180度的大反转也让网友们直呼离谱,话题热度高居不。
本文分享论文Perceptive self-supervised learning network for noisy image watermark remo...
近年来,LLM在文本处理的领先地位和视觉模型如CLIP在多模态任务上优秀的泛化表现,展示了基础模型在推进多模态感知、理解、生成方面的强大潜力。
多模态大模型 Multimodal LLM (MLLM) 相关研究致力于实现通用的图片理解,其中类别多样、文字丰富且排版复杂的文档图片一直是阻碍多模态大模型实现...
本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Fe...
本文分享论文A self-supervised CNN for image watermark removal,由西工大& 哈工大&台湾清华大学联合提出一种基于...
本篇分享 CVPR 2024 论文SVGDreamer: Text Guided SVG Generation with Diffusion Model,由北航...
在数字媒体和⼈⼯智能技术飞速发展的今天,视频内容的创作和表达⽅式正经历着翻天覆地的变化。Sora的出现不仅代表了⽂本到视频转换技术的重⼤进步,更开启了视频创作的...
人脸识别在我们的生活中随处可见,例如在大楼门禁系统中,它取代了传统的门禁卡或密码,提高了进出的便捷性和安全性。在商场安保方面,人脸识别被广泛应用于监控系统,有助...
随着科技的不断进步,生活中所见的一切已经不再局限于现实。在这个数字化时代,无论是图片、视频,还是其他形式的媒体内容,都有可能是通过 AI 算法生成的。精彩的场景...
这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。
AIGC 大模型最火热的任务之一——基于 Diffusion Model 的图像编辑(editing)领域的首篇综述。长达 26 页,涵盖 297 篇文献!本文...
MoE-LLaVA只有3B个稀疏激活参数,表现与LLaVA-1.5-7B在各种视觉理解数据集上相当,并且在物体幻觉基准测试中甚至超越了LLaVA-1.5-13B...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业