暂无搜索历史
本文分享论文Cobra: Extending Mamba to Multi-Modal Large Language Model for Efficient I...
最近,靠着出其不意的扩图效果,“AI扩图”功能凭借搞笑的补全结果频频出圈,火爆全网。网友们踊跃尝试,180度的大反转也让网友们直呼离谱,话题热度高居不。
本文分享论文Perceptive self-supervised learning network for noisy image watermark remo...
近年来,LLM在文本处理的领先地位和视觉模型如CLIP在多模态任务上优秀的泛化表现,展示了基础模型在推进多模态感知、理解、生成方面的强大潜力。
多模态大模型 Multimodal LLM (MLLM) 相关研究致力于实现通用的图片理解,其中类别多样、文字丰富且排版复杂的文档图片一直是阻碍多模态大模型实现...
本文分享 CVPR 2024 论文ViT-CoMer: Vision Transformer with Convolutional Multi-scale Fe...
本文分享论文A self-supervised CNN for image watermark removal,由西工大& 哈工大&台湾清华大学联合提出一种基于...
本篇分享 CVPR 2024 论文SVGDreamer: Text Guided SVG Generation with Diffusion Model,由北航...
在数字媒体和⼈⼯智能技术飞速发展的今天,视频内容的创作和表达⽅式正经历着翻天覆地的变化。Sora的出现不仅代表了⽂本到视频转换技术的重⼤进步,更开启了视频创作的...
人脸识别在我们的生活中随处可见,例如在大楼门禁系统中,它取代了传统的门禁卡或密码,提高了进出的便捷性和安全性。在商场安保方面,人脸识别被广泛应用于监控系统,有助...
随着科技的不断进步,生活中所见的一切已经不再局限于现实。在这个数字化时代,无论是图片、视频,还是其他形式的媒体内容,都有可能是通过 AI 算法生成的。精彩的场景...
这个名为DUSt3R的新工具,火得一塌糊涂,才上线没多久就登上GitHub热榜第二。
AIGC 大模型最火热的任务之一——基于 Diffusion Model 的图像编辑(editing)领域的首篇综述。长达 26 页,涵盖 297 篇文献!本文...
MoE-LLaVA只有3B个稀疏激活参数,表现与LLaVA-1.5-7B在各种视觉理解数据集上相当,并且在物体幻觉基准测试中甚至超越了LLaVA-1.5-13B...
多模态agent时代已经到来,目前已有不少有趣的应用,今天来介绍一个用多模态agent实现手机操作助手的工作Mobile-Agent: Autonomous M...
在 ICLR2024 上,由南洋理工大学-商汤联合研究中心 S-Lab,香港中文大学,及上海人工智能实验室等合作提出了一种基于扩散模型的大量类别 3D 物体生成...
AI视频生成这块儿,最近可真是火得不得了。这几个月以来,好几个视频生成模型相继亮相。各个高校实验室、互联网巨头AI Lab、创业公司纷纷加入了AI视频生成的赛道...
本文分享论文Mono3DVG: 3D Visual Grounding in Monocular Images,该论文已被 AAAI 2024 接收,数据集和代...
这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥...
本篇分享论文CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding,其工作内容...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业