我爱计算机视觉

从部署到实践，即刻拥有你的专属龙虾助手

OpenClaw开发者专区🦞🦞🦞

自行/邀约他人一键搬运博客，享价值百万资源包

腾讯云自媒体同步曝光计划

往期视频·干货材料·成员作品 最新动态

腾讯技术创作特训营知识专栏

新邀入驻腾讯云开发者社区，福利多多！

Llama3-8B-Chinese-Chat 是一个针对中文和英文用户的指令调整语言模型，具有各种能力，如角色扮演和工具使用，建立在 Meta-Llama-3-8B-Instruct 模型之上。但相较于 Llama3-8B-Instruct，Llama3-8B-Chinese-Chat 模型不会出现中文问题英文回答、中英夹杂的回答的问题，以及说话更为正式（Llama3-8B-Instruct真的很喜欢输出emoji）。

教程系列2 | 趋动云『社区项目』一步实现与 AI 对话

本篇分享论文Graph Convolutional Network for Image Restoration: A Survey，由西工大&西澳大学&同济大学共同发布，第一篇图卷积网络在图像复原上综述（论文开源）。

西工大&西澳大学&同济大学 第一篇图卷积网络在图像复原上综述（论文开源）

Stable-diffusion-webui 是一个支持 Stable Diffusion 的交互界面应用，支持以下多种功能：文生图、图生图、图像修复/扩展、彩色素描等等。

手把手教程 | GPU云上极速部署 SD WebUI

多模态大型语言模型（MLLMs）的高速发展彰显了其在处理图文信息方面的强大潜力。然而，目前的多模态模型和方法主要集中于处理基础视觉问答（VQA）任务，这些任务通常只涉及与问题强相关的有限图片和文本信息。在实际应用中，尤其是文档理解领域，模型经常需要处理更为复杂的图文混合输入，这些输入不仅长度更长，而且可能包含冗余甚至误导性的信息。现有的主流MLLMs在处理此类复杂任务时表现不佳，且缺乏相应的Benchmark来评估模型在这些任务上的性能。

厦门大学首发多模态阅读理解新任务： 图文深度融合数据集VEGA

近年来，Mamba作为一种处理长距离依赖关系的计算模块，在医学图像分割领域取得了显著进展。而近期，来自浙江大学，魔芯科技，中科大等单位的研究人员将Mamba替换为xLSTM，提出 xLSTM-UNet(xLSTM-UNet can be an Effective 2D \& 3D Medical Image Segmentation Backbone with Vision-LSTM (ViL) better than its Mamba Counterpart)，通过引入扩展长短期记忆网络（xLSTM），在多个医学图像分割任务中表现出色，超越了基于Mamba的模型！

xLSTM成功杀入医学图像分割领域，取代Mamba成为新SOTA！魔芯科技联合多单位推出

最初，因隋炀帝思念心切，命工匠按照柳抃的形象制作了木偶机器人，被认为是历史上最早的机器人之一。这些木偶机器人通过精巧设计的机关，能够执行坐、起、拜、伏等动作。

身手不凡的机器人，开源项目汇总

虚拟试衣是通过虚拟的技术手段，实现用户不用脱去身上衣服，完成变装的效果。最初，起源于换装游戏，随着互联网的普及和电子商务的兴起，消费者对在线购物体验的需求不断增加，虚拟试衣技术因此得到了快速发展。现如今，虚拟试衣技术多应用于：

虚拟试衣技术发展综述：从应用到开源资源

姿态估计是一种计算机视觉技术，旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点，如头部、肩膀、手臂、腿部等，并确定它们之间的关系，以推断出人体的姿势或动作。

姿态估计开源模型、数据集分享

随着图像和视频数据量的急剧增加，以及人们对高质量图像需求的不断提升，超分辨率技术也在不断发展，以满足实际应用的需求。本文将分享一些相关的开源库和数据集，希望能够帮助该领域的研究人员推进研究和应用。

超分辨率开源库 GitHub 热门项目分享

本文介绍由多伦多大学，北京交通大学，德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型，该方法可以在几分钟之内可以完成时空一致的4D内容生成。

首个4D视频生成扩散模型！Diffusion4D数分钟内实现4D内容生成，超81K的4D数据集已开源！

近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展，比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonkey, 闭源模型GPT-4o、Claude等，甚至在某些方面展现了超越人类的能力。然而，当前的评估主要集中在英文和中文的语言环境中，对于更具挑战的多语种环境，研究还相对缺乏。

多模态大模型的多语种文字理解能力还有很长的路要走，字节、华科联合发布MTVQA Bench

由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛道获得冠军。

CVPR竞赛冠军方案：复杂场景下的视频对象分割

多模态大语言模型（MLLMs）因其在视觉理解和推理方面的突出表现，例如生成详细的图像描述和回答复杂的问题等，逐渐成为近期AI研究的热点。

多模态大模型面对误导性问题：看懂图片也会答错，一骗就中招

在CVPR 2024 像素级视频理解（PVUW）挑战赛中，来自塔普智能（Tapall.ai）、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分割（MeViS）赛道上获得冠军。该团队提出的技术专为解析由自然语言表达引导的视频内容而设计，致力于提高视频分割的准确性和效率。

CVPR竞赛冠军方案：运动表达引导视频分割方法，代码及技术报告均已开源

智源和香港中文大学联合提出的 M3D 系列工作，包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D 医学图像分析的发展。

智源和港中文联合提出首个多功能3D医学多模态大模型（文本、定位和分割任务）

本文为粉丝投稿，原文链接：https://zhuanlan.zhihu.com/p/702702109。

CVPR 2024 | 如何给 NeRF 开透视眼？

近日，中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME，全面评估多模态大模型的综合视频理解能力，填补了这一领域的空白。Gemini 1.5 Pro在这份榜单中遥遥领先，证明其在视频理解领域的霸主地位。Video-MME一经推出，更是被谷歌首席科学家Jeff Dean连续转发了三次！目前已有近30万的浏览量，热度很高。

Gemini在大考终于赢了GPT-4o！Jeff Dean连续转发三次！Video-MME首个视频多模态基准来了！

本文分享 CVPR 2024 论文Rethinking Few-shot 3D Point Cloud Semantic Segmentation，重新审视并改正小样本3D分割任务中的问题，作者来自 ETH Zurich 等联合团队。

ETH Zurich、A*STAR等联合工作：重新审视并改正小样本3D分割任务中的问题，新benchmark开启广阔提升可能性！

本文为粉丝投稿，原文链接：https://zhuanlan.zhihu.com/p/701844704。

TPAMI 2024｜DeepM2CDL：基于层级式多尺度卷积字典的多模态图像修复与融合网络

Mobile-Agent 于今年年初发布，凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内，它已经在Github获得了2,000个Star。该系统采用纯视觉方案，通过视觉感知工具和操作工具完成智能体在手机上的操作，无需依赖任何系统级别的UI文件。得益于这种智能体中枢模型的强大，Mobile-Agent实现了即插即用，无需进行额外的训练和探索。

全新Mobile-Agent-v2发布，自动化手机操作助手全面升级！

文章

问答

视频

教程

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云智能顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

EdgeOne AI 安全实战专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

聚焦“写作效率、视觉美观与运行性能”三方面进行全面升级，为您提供更高效、稳定的创作环境

社区富文本&Markdown编辑器全新改版上线，欢迎大家体验!

诚挚邀请您参与本次调研，分享您的真实使用感受与建议。您的反馈至关重要，感谢您的支持与参与！

社区新版编辑器体验调研

腾讯云开发者社区推出了我爱计算机视觉专栏，为你提供了我爱计算机视觉的相关文章，致力于帮助开发者快速成长与发展。

我爱计算机视觉

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐