首页
学习
活动
专区
工具
TVP
发布

我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿,“有价值有深度”。www.52cv.net QQ群: 805388940
专栏作者
784
文章
758205
阅读量
61
订阅数
MoE-LLaVA——将多模态大模型稀疏化
MoE-LLaVA只有3B个稀疏激活参数,表现与LLaVA-1.5-7B在各种视觉理解数据集上相当,并且在物体幻觉基准测试中甚至超越了LLaVA-1.5-13B。通过MoE-LLaVA,我们旨在建立稀疏LVLMs的基准,并为未来研究开发更高效和有效的多模态学习系统提供宝贵的见解。并且MoE-LLaVA团队已经开放了所有的数据、代码和模型。
CV君
2024-02-06
1040
一句指令帮你操作手机,最新多模态手机助手Mobile-Agent来了!
多模态agent时代已经到来,目前已有不少有趣的应用,今天来介绍一个用多模态agent实现手机操作助手的工作Mobile-Agent: Autonomous Multi-Modal Mobile Device Agent with Visual Perception,通过纯视觉方案实现AI操作手机。
CV君
2024-02-06
770
ICLR2024 | DiffTF:基于 Transformer 的大词汇量高质量 3D 物体生成框架
在 ICLR2024 上,由南洋理工大学-商汤联合研究中心 S-Lab,香港中文大学,及上海人工智能实验室等合作提出了一种基于扩散模型的大量类别 3D 物体生成框架(Large-Vocabulary 3D Diffusion Model with Transformer),克服了三个主要挑战:
CV君
2024-01-29
1480
AI视频生成哪家强?一键安装 VBench,测一测就知道!
AI视频生成这块儿,最近可真是火得不得了。这几个月以来,好几个视频生成模型相继亮相。各个高校实验室、互联网巨头AI Lab、创业公司纷纷加入了AI视频生成的赛道。Pika、Gen-2、Show-1、VideoCrafter、ModelScope、SEINE、LaVie、VideoLDM等视频生成模型让人眼前一亮。
CV君
2024-01-23
1110
AAAI-2024 | Mono3DVG:首个基于单目RGB图像实现3D Visual Grounding的方法
本文分享论文Mono3DVG: 3D Visual Grounding in Monocular Images,该论文已被 AAAI 2024 接收,数据集和代码已开源。
CV君
2024-01-23
880
只需1080ti,即可在遥感图像中对目标进行像素级定位!代码数据集已开源!
这篇论文介绍了一项新的任务 —— 指向性遥感图像分割(RRSIS),以及一种新的方法 —— 旋转多尺度交互网络(RMSIN)。RRSIS 旨在根据文本描述实现遥感图像中目标对象的像素级定位。为了解决现有数据集规模和范围的限制,本文构建了一个新的大规模 RRSIS 数据集(RRSIS-D),其中涵盖了多种空间分辨率的图像和具有尺度和角度多样性的分割目标(已公开!)。
CV君
2024-01-11
1070
中科院最新工作:基于自步课程学习实现多模态大模型CLIP在多模态视觉语言理解与定位任务上的迁移研究
本篇分享论文CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding,其工作内容是基于自步课程学习实现多模态大模型CLIP在多模态视觉语言理解与定位任务上的迁移研究。
CV君
2024-01-03
1650
开源 4D 生成框架 | 4DGen: 基于动态 3D 高斯的可控 4D 生成
本文分享4D生成方向新工作,由北京交通大学和得克萨斯大学奥斯汀分校共同完成的4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency,文章使用Gaussian Splatting实现了高质量的4D生成。
CV君
2024-01-02
1490
华科等提出TF-T2V:无文本标注视频的多用途生成方案,助力视频生成技术实现规模化突破
本篇分享论文A Recipe for Scaling up Text-to-Video Generation with Text-free Videos,提出无文本标注视频的多用途生成方案,助力视频生成技术实现规模化突破。
CV君
2024-01-02
900
NeruIPS 2023 | SegRefiner: 通过 Diffusion 实现高精度图像分割
本文分享 NeruIPS 2023 论文SegRefiner: Towards Model-Agnostic Segmentation Refinement with Discrete Diffusion Process,通过Diffusion实现高精度图像分割。
CV君
2024-01-02
2860
港中文128页全球首份Gemini vs GPT-4V多模态PK报告
2023 年 12 月 6 日,谷歌发布了最新一代的通用人工智能大模型 Gemini,并报告在多项测试中取得了最先进的结果,甚至在 MMLU 测试中首次取得了超过人类专家的成绩,人工智能似乎进入 Gemini 时代。
CV君
2023-12-26
1430
NVEdit | 基于现有 T2I 模型的帧间一致长视频编辑方法,北大张健团队提出显存高效的神经视频编辑场
大家好,今天要介绍的是最近出现的一篇关于文本驱动的视频编辑工作NVEdit(Neural Video Fields Editing)。
CV君
2023-12-26
1260
港中文128页全球首份Gemini vs GPT-4V多模态PK报告
2023 年 12 月 6 日,谷歌发布了最新一代的通用人工智能大模型 Gemini,并报告在多项测试中取得了最先进的结果,甚至在 MMLU 测试中首次取得了超过人类专家的成绩,人工智能似乎进入 Gemini 时代。
CV君
2023-12-26
1120
AAAI 2024 | Diffusion扩散模型用于生成任意风格的复杂字的使用配方
本文分享 AAAI 2024 论文FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning,Diffusion 扩散模型用于生成任意风格的复杂字的使用配方。
CV君
2023-12-26
2160
AAAI 2024 | Diffusion扩散模型用于生成任意风格的复杂字的使用配方
本文分享 AAAI 2024 论文FontDiffuser: One-Shot Font Generation via Denoising Diffusion with Multi-Scale Content Aggregation and Style Contrastive Learning,Diffusion 扩散模型用于生成任意风格的复杂字的使用配方。
CV君
2023-12-26
1700
AAAI-2024 | VadCLIP: 首个基于视觉-语言模型的弱监督视频异常检测方法
本文分享论文VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection,该论文已被 AAAI 2024 接收,代码和相关CLIP特征已开源。
CV君
2023-12-26
1930
AAAI-2024 | VadCLIP: 首个基于视觉-语言模型的弱监督视频异常检测方法
本文分享论文VadCLIP: Adapting Vision-Language Models for Weakly Supervised Video Anomaly Detection,该论文已被 AAAI 2024 接收,代码和相关CLIP特征已开源。
CV君
2023-12-26
3720
AAAI 2024 | Aleth-NeRF: 低光增强与曝光纠正的新方向,不良光照场景下的新视角合成
大家好,今天要介绍的是 AAAI 2024 关于不良光照下 NeRF 新视角合成的工作 Aleth-NeRF(Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption),目的在不良光照场景下(如低光照和过曝光)场景,能够从 NeRF 无监督增强并且生成正常光照的连贯 3D scene。我们提出的方法可以对现有NeRF进行简单改进,通过引入一个 Concealing Field 的概念,仅用几行代码就可以使得现有的 NeRF 在低光照或者过曝光的情况下,进行 Novel View Synthesis 重建,并且实现无监督的低光增强和曝光纠正。
CV君
2023-12-26
1190
AAAI 2024 | Aleth-NeRF: 低光增强与曝光纠正的新方向,不良光照场景下的新视角合成
大家好,今天要介绍的是 AAAI 2024 关于不良光照下 NeRF 新视角合成的工作 Aleth-NeRF(Aleth-NeRF: Illumination Adaptive NeRF with Concealing Field Assumption),目的在不良光照场景下(如低光照和过曝光)场景,能够从 NeRF 无监督增强并且生成正常光照的连贯 3D scene。我们提出的方法可以对现有NeRF进行简单改进,通过引入一个 Concealing Field 的概念,仅用几行代码就可以使得现有的 NeRF 在低光照或者过曝光的情况下,进行 Novel View Synthesis 重建,并且实现无监督的低光增强和曝光纠正。
CV君
2023-12-26
1280
AAAI 2024 | 高效端到端的3D指向性分割,1080Ti即可训练!代码已开源
本篇分享论文 3D-STMN: Dependency-Driven Superpoint-Text Matching Network for End-to-End 3D Referring Expression Segmentation,通过超点-文本匹配和依存驱动,实现端到端的高效 3D 指向性分割。
CV君
2023-12-26
1050
点击加载更多
社区活动
征集 | 幻兽帕鲁腾讯云教程
最高享8.6W,2月7日截止报名
玩转Python征文挑战赛
优先体验社区新功能,赢取众多精美礼品!
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·干货材料·成员作品·最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档