暂无搜索历史
Llama3-8B-Chinese-Chat 是一个针对中文和英文用户的指令调整语言模型,具有各种能力,如角色扮演和工具使用,建立在 Meta-Llama-3-...
本篇分享论文Graph Convolutional Network for Image Restoration: A Survey,由西工大&西澳大学&同济大学...
Stable-diffusion-webui 是一个支持 Stable Diffusion 的交互界面应用,支持以下多种功能:文生图、图生图、图像修复/扩展、彩...
多模态大型语言模型(MLLMs)的高速发展彰显了其在处理图文信息方面的强大潜力。然而,目前的多模态模型和方法主要集中于处理基础视觉问答(VQA)任务,这些任务通...
近年来,Mamba作为一种处理长距离依赖关系的计算模块,在医学图像分割领域取得了显著进展。而近期,来自浙江大学,魔芯科技,中科大等单位的研究人员将Mamba替换...
最初,因隋炀帝思念心切,命工匠按照柳抃的形象制作了木偶机器人,被认为是历史上最早的机器人之一。这些木偶机器人通过精巧设计的机关,能够执行坐、起、拜、伏等动作。
虚拟试衣是通过虚拟的技术手段,实现用户不用脱去身上衣服,完成变装的效果。最初,起源于换装游戏,随着互联网的普及和电子商务的兴起,消费者对在线购物体验的需求不断增...
姿态估计是一种计算机视觉技术,旨在从图像或视频中识别和理解人体的姿势或动作。它涉及检测人体的关键点,如头部、肩膀、手臂、腿部等,并确定它们之间的关系,以推断出人...
随着图像和视频数据量的急剧增加,以及人们对高质量图像需求的不断提升,超分辨率技术也在不断发展,以满足实际应用的需求。本文将分享一些相关的开源库和数据集,希望能够...
本文介绍由多伦多大学,北京交通大学,德克萨斯大学奥斯汀分校和剑桥大学团队最新提出的4D生成扩散模型,该方法可以在几分钟之内可以完成时空一致的4D内容生成。
近期多模态大模型(MLLM)在视觉文本理解领域取得了显著进展,比如开源模型InternVL 1.5、MiniCPM-Llama3-V 2.5、TextMonke...
由鹏城实验室、哈工大深圳和University of California at Merced组成的团队在CVPR2024 PVUW比赛的MOSE视频对象分割赛...
多模态大语言模型(MLLMs)因其在视觉理解和推理方面的突出表现,例如生成详细的图像描述和回答复杂的问题等,逐渐成为近期AI研究的热点。
在CVPR 2024 像素级视频理解(PVUW)挑战赛中,来自塔普智能(Tapall.ai)、南方科技大学、谢菲尔德大学、华威大学的研究团队在运动表达引导视频分...
智源和香港中文大学联合提出的 M3D 系列工作,包括 M3D-Data, M3D-LaMed, 和 M3D-Bench, 从数据集、模型和测评全方面推动 3D ...
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/702702109。
近日,中科大、厦大、港中文等高校联合推出多模态大模型视频分析综合评估基准Video-MME,全面评估多模态大模型的综合视频理解能力,填补了这一领域的空白。Gem...
本文分享 CVPR 2024 论文Rethinking Few-shot 3D Point Cloud Semantic Segmentation,重新审视并改...
本文为粉丝投稿,原文链接:https://zhuanlan.zhihu.com/p/701844704。
Mobile-Agent 于今年年初发布,凭借强劲的自动化手机操作能力迅速在AI领域和手机制造商中引起广泛关注。短短五个月内,它已经在Github获得了2,00...
暂未填写公司和职称
暂未填写技能专长
暂未填写学校和专业