CV君

文章/答案/技术大牛

发布

LV0

全部文章

教程系列2 | 趋动云『社区项目』一步实现与 AI 对话
Llama3-8B-Chinese-Chat 是一个针对中文和英文用户的指令调整语言模型，具有各种能力，如角色扮演和工具使用，建立在 Meta-Llama-3-...
CV君 2024-07-242024-07-24 09:22:32
部署、教程、开发环境、模型、数组
西工大&西澳大学&同济大学第一篇图卷积网络在图像复原上综述（论文开源）
本篇分享论文Graph Convolutional Network for Image Restoration: A Survey，由西工大&西澳大学&同济大学...
CV君 2024-07-242024-07-24 09:20:01
论文、数据、网络、开源、卷积神经网络
手把手教程 | GPU云上极速部署 SD WebUI
Stable-diffusion-webui 是一个支持 Stable Diffusion 的交互界面应用，支持以下多种功能：文生图、图生图、图像修复/扩展、彩...
CV君 2024-07-122024-07-12 16:51:47
gpu、部署、教程、模型、数据
厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA
多模态大型语言模型（MLLMs）的高速发展彰显了其在处理图文信息方面的强大潜力。然而，目前的多模态模型和方法主要集中于处理基础视觉问答（VQA）任务，这些任务通...
CV君 2024-07-122024-07-12 16:50:09
测试、产品、论文、模型、数据
xLSTM成功杀入医学图像分割领域，取代Mamba成为新SOTA！魔芯科技联合多单位推出
近年来，Mamba作为一种处理长距离依赖关系的计算模块，在医学图像分割领域取得了显著进展。而近期，来自浙江大学，魔芯科技，中科大等单位的研究人员将Mamba替换...
CV君 2024-07-122024-07-12 16:49:15
模型、数据、图像分割、架构、科技
身手不凡的机器人，开源项目汇总
最初，因隋炀帝思念心切，命工匠按照柳抃的形象制作了木偶机器人，被认为是历史上最早的机器人之一。这些木偶机器人通过精巧设计的机关，能够执行坐、起、拜、伏等动作。
CV君 2024-07-122024-07-12 16:46:45
数据、开源、机器人、论文、模型
虚拟试衣技术发展综述：从应用到开源资源
虚拟试衣是通过虚拟的技术手段，实现用户不用脱去身上衣服，完成变装的效果。最初，起源于换装游戏，随着互联网的普及和电子商务的兴起，消费者对在线购物体验的需求不断增...
CV君 2024-07-122024-07-12 16:46:04
数据、游戏、开源、论文、模型
姿态估计开源模型、数据集分享
姿态估计是一种计算机视觉技术，旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点，如头部、肩膀、手臂、腿部等，并确定它们之间的关系，以推断出人...
CV君 2024-06-282024-06-28 16:45:12
开源、论文、模型、数据、系统
超分辨率开源库 GitHub 热门项目分享
随着图像和视频数据量的急剧增加，以及人们对高质量图像需求的不断提升，超分辨率技术也在不断发展，以满足实际应用的需求。本文将分享一些相关的开源库和数据集，希望能够...
CV君 2024-06-272024-06-27 16:19:24
模型、视频、数据、github、开源
首个4D视频生成扩散模型！Diffusion4D数分钟内实现4D内容生成，超81K的4D数据集已开源！
本文介绍由多伦多大学，北京交通大学，德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型，该方法可以在几分钟之内可以完成时空一致的4D内容生成。
CV君 2024-06-272024-06-27 16:18:36
开源、模型、视频、数据、渲染
多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench
近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展，比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonke...
CV君 2024-06-272024-06-27 16:15:55
开源、测试、模型、数据、人工智能
CVPR竞赛冠军方案：复杂场景下的视频对象分割
由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛...
CV君 2024-06-272024-06-27 16:14:49
视频、数据、性能、对象、框架
多模态大模型面对误导性问题：看懂图片也会答错，一骗就中招
多模态大语言模型（MLLMs）因其在视觉理解和推理方面的突出表现，例如生成详细的图像描述和回答复杂的问题等，逐渐成为近期AI研究的热点。
CV君 2024-06-272024-06-27 16:14:15
模型、数据、性能、开源、测试
CVPR竞赛冠军方案：运动表达引导视频分割方法，代码及技术报告均已开源
在CVPR 2024 像素级视频理解（PVUW）挑战赛中，来自塔普智能（Tapall.ai）、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分...
CV君 2024-06-272024-06-27 16:12:43
视频、开源、视频分析、对象、模型
智源和港中文联合提出首个多功能3D医学多模态大模型（文本、定位和分割任务）
智源和香港中文大学联合提出的 M3D 系列工作，包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D ...
CV君 2024-06-272024-06-27 16:11:55
开源、图像分析、工作、模型、数据
CVPR 2024 | 如何给 NeRF 开透视眼？
本文为粉丝投稿，原文链接：https://zhuanlan.zhihu.com/p/702702109。
CV君 2024-06-172024-06-17 14:09:18
算法、开源、框架、设计、数据
Gemini在大考终于赢了GPT-4o！Jeff Dean连续转发三次！Video-MME首个视频多模态基准来了！
近日，中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME，全面评估多模态大模型的综合视频理解能力，填补了这一领域的空白。Gem...
CV君 2024-06-172024-06-17 14:08:42
gpt、video、模型、视频、数据
ETH Zurich、A*STAR等联合工作：重新审视并改正小样本3D分割任务中的问题，新benchmark开启广阔提升可能性！
本文分享 CVPR 2024 论文Rethinking Few-shot 3D Point Cloud Semantic Segmentation，重新审视并改...
CV君 2024-06-172024-06-17 14:04:47
工作、模型、性能、优化、测试
TPAMI 2024｜DeepM2CDL：基于层级式多尺度卷积字典的多模态图像修复与融合网络
本文为粉丝投稿，原文链接：https://zhuanlan.zhihu.com/p/701844704。
CV君 2024-06-172024-06-17 14:04:13
工作、模型、数据、算法、网络
全新Mobile-Agent-v2发布，自动化手机操作助手全面升级！
Mobile-Agent 于今年年初发布，凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内，它已经在Github获得了2,00...
CV君 2024-06-172024-06-17 14:04:00
mobile、视频、手机、自动化、agent

12 3 4 5 6 7 8...42 下一页

个人简介

暂未填写公司和职称
我爱计算机视觉公众号负责人
暂未填写技能专长
暂未填写学校和专业
https://www.52cv.net
江苏省 | 南京市
加入社区时间：2018-07-01

个人成就

获得 1.8K 次赞同
文章被阅读 1.2M 次

关注了：1关注者：122

CV君

全部文章

教程系列2 | 趋动云『社区项目』一步实现与 AI 对话

西工大&西澳大学&同济大学第一篇图卷积网络在图像复原上综述（论文开源）

手把手教程 | GPU云上极速部署 SD WebUI

厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA

xLSTM成功杀入医学图像分割领域，取代Mamba成为新SOTA！魔芯科技联合多单位推出

身手不凡的机器人，开源项目汇总

虚拟试衣技术发展综述：从应用到开源资源

姿态估计开源模型、数据集分享

超分辨率开源库 GitHub 热门项目分享

首个4D视频生成扩散模型！Diffusion4D数分钟内实现4D内容生成，超81K的4D数据集已开源！

多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

CVPR竞赛冠军方案：复杂场景下的视频对象分割

多模态大模型面对误导性问题：看懂图片也会答错，一骗就中招

CVPR竞赛冠军方案：运动表达引导视频分割方法，代码及技术报告均已开源

智源和港中文联合提出首个多功能3D医学多模态大模型（文本、定位和分割任务）

CVPR 2024 | 如何给 NeRF 开透视眼？

Gemini在大考终于赢了GPT-4o！Jeff Dean连续转发三次！Video-MME首个视频多模态基准来了！

ETH Zurich、A*STAR等联合工作：重新审视并改正小样本3D分割任务中的问题，新benchmark开启广阔提升可能性！

TPAMI 2024｜DeepM2CDL：基于层级式多尺度卷积字典的多模态图像修复与融合网络

全新Mobile-Agent-v2发布，自动化手机操作助手全面升级！

个人简介

个人成就

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

CV君

教程系列2 | 趋动云『社区项目』一步实现与 AI 对话

西工大&西澳大学&同济大学 第一篇图卷积网络在图像复原上综述（论文开源）

手把手教程 | GPU云上极速部署 SD WebUI

厦门大学首发多模态阅读理解新任务： 图文深度融合数据集VEGA

xLSTM成功杀入医学图像分割领域，取代Mamba成为新SOTA！魔芯科技联合多单位推出

身手不凡的机器人，开源项目汇总

虚拟试衣技术发展综述：从应用到开源资源

姿态估计开源模型、数据集分享

超分辨率开源库 GitHub 热门项目分享

首个4D视频生成扩散模型！Diffusion4D数分钟内实现4D内容生成，超81K的4D数据集已开源！

多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

CVPR竞赛冠军方案：复杂场景下的视频对象分割

多模态大模型面对误导性问题：看懂图片也会答错，一骗就中招

CVPR竞赛冠军方案：运动表达引导视频分割方法，代码及技术报告均已开源

智源和港中文联合提出首个多功能3D医学多模态大模型（文本、定位和分割任务）

CVPR 2024 | 如何给 NeRF 开透视眼？

Gemini在大考终于赢了GPT-4o！Jeff Dean连续转发三次！Video-MME首个视频多模态基准来了！

ETH Zurich、A*STAR等联合工作：重新审视并改正小样本3D分割任务中的问题，新benchmark开启广阔提升可能性！

TPAMI 2024｜DeepM2CDL：基于层级式多尺度卷积字典的多模态图像修复与融合网络

全新Mobile-Agent-v2发布，自动化手机操作助手全面升级！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

西工大&西澳大学&同济大学第一篇图卷积网络在图像复原上综述（论文开源）

厦门大学首发多模态阅读理解新任务：图文深度融合数据集VEGA