首页
学习
活动
专区
工具
TVP
发布

我爱计算机视觉

关注计算机视觉与机器学习技术的最前沿,“有价值有深度”。www.52cv.net QQ群: 805388940
专栏成员
840
文章
870603
阅读量
62
订阅数
手把手教程 | GPU云上极速部署 SD WebUI
Stable-diffusion-webui 是一个支持 Stable Diffusion 的交互界面应用,支持以下多种功能:文生图、图生图、图像修复/扩展、彩色素描等等。
CV君
2024-07-12
1630
厦门大学首发多模态阅读理解新任务: 图文深度融合数据集VEGA
多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中,尤其是文档理解领域,模型经常需要处理更为复杂的图文混合输入,这些输入不仅长度更长,而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳,且缺乏相应的Benchmark来评估模型在这些任务上的性能。
CV君
2024-07-12
1340
xLSTM成功杀入医学图像分割领域,取代Mamba成为新SOTA!魔芯科技联合多单位推出
近年来,Mamba作为一种处理长距离依赖关系的计算模块,在医学图像分割领域取得了显著进展。而近期,来自浙江大学,魔芯科技,中科大等单位的研究人员将Mamba替换为xLSTM,提出 xLSTM-UNet(xLSTM-UNet can be an Effective 2D \& 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart),通过引入扩展长短期记忆网络(xLSTM),在多个医学图像分割任务中表现出色,超越了基于Mamba的模型!
CV君
2024-07-12
1020
身手不凡的机器人,开源项目汇总
最初,因隋炀帝思念心切,命工匠按照柳抃的形象制作了木偶机器人,被认为是历史上最早的机器人之一。这些木偶机器人通过精巧设计的机关,能够执行坐、起、拜、伏等动作。
CV君
2024-07-12
1030
虚拟试衣技术发展综述:从应用到开源资源
虚拟试衣是通过虚拟的技术手段,实现用户不用脱去身上衣服,完成变装的效果。最初,起源于换装游戏,随着互联网的普及和电子商务的兴起,消费者对在线购物体验的需求不断增加,虚拟试衣技术因此得到了快速发展。现如今,虚拟试衣技术多应用于:
CV君
2024-07-12
1200
姿态估计开源模型、数据集分享
姿态估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点,如头部、肩膀、手臂、腿部等,并确定它们之间的关系,以推断出人体的姿势或动作。
CV君
2024-06-28
1480
超分辨率开源库 GitHub 热门项目分享
随着图像和视频数据量的急剧增加,以及人们对高质量图像需求的不断提升,超分辨率技术也在不断发展,以满足实际应用的需求。本文将分享一些相关的开源库和数据集,希望能够帮助该领域的研究人员推进研究和应用。
CV君
2024-06-27
1020
首个4D视频生成扩散模型!Diffusion4D数分钟内实现4D内容生成,超81K的4D数据集已开源!
本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。
CV君
2024-06-27
1570
多模态大模型的多语种文字理解能力还有很长的路要走,字节、华科联合发布MTVQA Bench
近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展,比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、Claude等,甚至在某些方面展现了超越人类的能力。然而,当前的评估主要集中在英文和中文的语言环境中,对于更具挑战的多语种环境,研究还相对缺乏。
CV君
2024-06-27
1610
CVPR竞赛冠军方案:复杂场景下的视频对象分割
由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛道获得冠军。
CV君
2024-06-27
1450
多模态大模型面对误导性问题:看懂图片也会答错,一骗就中招
多模态大语言模型(MLLMs)因其在视觉理解和推理方面的突出表现,例如生成详细的图像描述和回答复杂的问题等,逐渐成为近期AI研究的热点。
CV君
2024-06-27
1090
CVPR竞赛冠军方案:运动表达引导视频分割方法,代码及技术报告均已开源
在CVPR 2024 像素级视频理解(PVUW)挑战赛中,来自塔普智能(Tapall.ai)、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分割(MeViS)赛道上获得冠军。该团队提出的技术专为解析由自然语言表达引导的视频内容而设计,致力于提高视频分割的准确性和效率。
CV君
2024-06-27
930
智源和港中文联合提出首个多功能3D医学多模态大模型(文本、定位和分割任务)
智源和香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D 医学图像分析的发展。
CV君
2024-06-27
1180
CVPR 2024 | 如何给 NeRF 开透视眼?
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/702702109。
CV君
2024-06-17
2200
Gemini在大考终于赢了GPT-4o!Jeff Dean连续转发三次!Video-MME首个视频多模态基准来了!
近日,中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。Gemini 1.5 Pro在这份榜单中遥遥领先,证明其在视频理解领域的霸主地位。Video-MME一经推出,更是被谷歌首席科学家Jeff Dean连续转发了三次!目前已有近30万的浏览量,热度很高。
CV君
2024-06-17
2030
ETH Zurich、A*STAR等联合工作:重新审视并改正小样本3D分割任务中的问题,新benchmark开启广阔提升可能性!
本文分享 CVPR 2024 论文Rethinking Few-shot 3D Point Cloud Semantic Segmentation,重新审视并改正小样本3D分割任务中的问题,作者来自 ETH Zurich 等联合团队。
CV君
2024-06-17
860
TPAMI 2024|DeepM2CDL:基于层级式多尺度卷积字典的多模态图像修复与融合网络
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/701844704。
CV君
2024-06-17
2960
全新Mobile-Agent-v2发布,自动化手机操作助手全面升级!
Mobile-Agent 于今年年初发布,凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,它已经在Github获得了2,000个Star。该系统采用纯视觉方案,通过视觉感知工具和操作工具完成智能体在手机上的操作,无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大,Mobile-Agent实现了即插即用,无需进行额外的训练和探索。
CV君
2024-06-17
2010
高 star 开源教程,包含八个 CV 项目实战教程,开源!
大家好,今天分享一个优秀的开源教程——超 20 万字的《PyTorch实用教程》(第二版),其第一版已经超 7.2K 颗星。
CV君
2024-06-17
1790
ClassDiffusion: 使用显式类别引导的一致性个性化生成
本篇分享论文ClassDiffusion: More Aligned Personalization Tuning with Explicit Class Guidance,由北交&字节联合提出 ClassDiffusion: 使用显式类别引导的一致性个性化生成。
CV君
2024-06-17
570
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档