暂无搜索历史
论文链接:https://arxiv.org/pdf/2511.19365 项目链接:https://zehong-ma.github.io/DeCo/ 代码...
论文链接:https://arxiv.org/pdf/2511.16669 项目链接:https://video-as-answer.github.io/ 代码...
本文在预训练大语言模型Qwen2.5-7B基础上构建UniGen-1.5,并分别采用独立的编码器处理理解与生成任务。如下图2所示,视觉生成任务使用离散视觉分词器...
代码链接: https://github.com/byliutao/Cradle2Cane
在过去几年中,扩散模型及其后续的流匹配方法在图像生成领域引发了质的飞跃,实现了前所未有的合成质量和多样性。这一基础促使了商业和开源系统的快速发展,为用户提供了从...
图 1:ARC 基准(上图)由许多不同的任务组成,其中每个任务都有少量(如 2-4 个)测试样本。本文提出了视觉 ARC (VARC) 框架,从计算机视觉角度将...
论文链接: https://arxiv.org/pdf/2511.11434 项目链接:https://weichow23.github.io/weave/
文章链接:https://arxiv.org/pdf/2511.09611 代码链接:https://github.com/tyfeld/MMaDA-Para...
图 1.50 步教师 SANA和我们的 1 步高清方法的生成质量比较。本文方法达到了与多步骤教师相当的质量。
论文链接:https://arxiv.org/pdf/2510.26802v1 项目主页:https://video-cof.github.io/
论文链接:https://arxiv.org/pdf/2511.07399 工程链接:https://streamdiffusionv2.github.io/
论文链接:https://arxiv.org/pdf/2510.00438 项目链接:https://lzy-dot.github.io/BindWeave/
文章链接:https://arxiv.org/pdf/2507.20177 代码链接:https://github.com/GXNU-ZhongLab/ODT...
文章链接:https://arxiv.org/pdf/2511.04675 开源链接:https://github.com/FoundationVision/...
文章链接:https://arxiv.org/pdf/2511.03601 开源链接:https://github.com/stepfun-ai/Step-Au...
论文链接:https://ieeexplore.ieee.org/abstract/document/11206511 代码链接:https://github...
论文链接:https://arxiv.org/pdf/2510.24657 项目 & 代码链接:https://little-misfit.github.io/...
文章链接:https://arxiv.org/pdf/2510.18692 项目链接:https://jiawn-creator.github.io/mixt...
论文链接:https://arxiv.org/pdf/2506.00512 代码链接:https://github.com/shuoyueli4519/Pro...
知乎链接:https://zhuanlan.zhihu.com/p/1962623398749372601 代码、模型链接:https://github.co...
暂未填写公司和职称
暂未填写个人简介
暂未填写技能专长
暂未填写学校和专业
暂未填写个人网址
暂未填写所在城市