AIGC 先锋科技

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

基于预训练扩散模型的拖拽式编辑为前景目标提供了精确且灵活的操作方式。传统方法直接优化DDIM反演得到的输入特征，通过迭代调整引导控制点朝向目标位置。
然而，这些方法由于运动监督中特征表示能力有限，以及点追踪所需的大搜索空间导致效率低下，往往存在精度限制。为解决这些局限性，作者提出了DragLoRA，一个将LoRA（低秩适配） Adapter 集成到拖拽式编辑流程中的新框架。
为增强LoRA Adapter 的训练，作者引入了额外的去噪分数蒸馏损失，通过使其输出与原始模型输出对齐来正则化在线模型。
此外，作者通过使用更新的LoRA Adapter 调整输入特征，提高了运动监督的一致性，为后续操作提供了更稳定和精确的输入特征。
基于此，作者设计了一种自适应优化方案，该方案在两种模式之间动态切换，优先考虑效率而不牺牲精度。大量实验表明，DragLoRA显著提升了基于拖拽的图像编辑的控制精度和计算效率。
代码可在以下链接获取：https://github.com/Sylvie-X/DragLoRA。

DragLoRA：集成 LoRA Adapter与去噪分数蒸馏，动态优化提升拖拽式图像编辑质效 ！

致力于分享前沿科技，为你带来最新的 AI 人工趋势、深度解读和实用应用，助你更好地了解和应用人工智能，与智能时代同步前行。

GUI Agent 借鉴R1-Zero范式：结合在线RL与思维链推理，三策略突破GUIAgent定位性能瓶颈 ！

近年来，文本到图像生成模型取得了显著进展，展现出从文本 Prompt 编码生成高质量图像的卓越能力[22]。其中，潜在扩散模型（LDMs）[15,21,23,28]被证明特别有效，利用深度学习在潜在空间中迭代优化图像。然而，从单张或少量图像中实现身份个性化——即生成准确捕捉特定主体形象且保持泛化能力的图像——仍然是一个重大挑战[36]。

Meta-LoRA：引入结构化三层架构实现身份个性化，在身份保留与效率上表现优异!

STAR-1：基于多样性、审慎推理与严格筛选的LRMs安全对齐数据集及其微调效果 ！

配音涉及为视频中的对话添加正确的人类声音，确保与角色的唇部动作同步，并传达场景中的情感。它在电影、电视、动画和游戏中发挥着至关重要的作用，增强了沉浸感，并有效传达情感和氛围。现有的配音方法可以分为两类，这两类都专注于学习不同风格的关键先验信息以生成高质量的声音。第一类专注于学习有效的说话人风格表示[7, 15, 23, 60]。第二类旨在利用给定视频输入的视觉信息来学习适当的韵律[15, 25, 37, 70]。然而，这些先验信息的准确性不足以满足现实场景中电影配音的需求。例如，针对不同类型（如对话、旁白和独白）以及细粒度属性（如期望的年龄和性别）的自适应配音尚未得到充分研究[17, 25]。

多模态大语言模型框架：攻克电影配音难题，多数据集指标显著超越现有最优方法！

大语言模型（LLMs）的快速发展推动了视频理解研究范式的转变，从传统的以视觉为中心的方法转向利用跨模态对齐能力的基于LLM的框架。这种由LLM驱动的革命体现在两种主要架构中：在视频-文本对齐数据上预训练的视频LLMs[3, 16, 23]和以图像-文本对齐[19, 25]为核心的视觉语言模型（VLMs）。

轻量级视频压缩（LVC）：以最小成本迁移长视频理解能力，解决VLMs采样问题并提升多模型性能 ！

图像生成技术的快速民主化和进步强调了归属模型验证视觉内容真实性的必要性。这些模型是2024年。本文件的版权归其作者所有。

LoRAX：应对生成式AI图像归因难题的可扩展低秩自适应网络，在深度伪造检测中展现高效与竞争力 !

人们日常与物体进行交互。在三维空间中重建人-物交互（HOI）对于许多应用至关重要，从机器人到混合现实。然而，仅从单张图像中完成这一任务具有挑战性，原因在于深度模糊、遮挡以及物体形状和外观的多样性。

InteractVLM：利用大型视觉语言模型结合“渲染-定位 - 提升”模块实现自然场景图像精确三维人-物联合重建 ！

大语言模型（LLMs）通过思考然后响应的范式展示了增强的性能，在这个范式中，模型在最终回应之前会生成内部思考（即，系统2思考）。然而，现有的研究缺乏对思考模式如何影响不同规模模型性能的系统性理解。在本工作中，作者对各种思考类型对模型性能的影响进行了全面分析，并引入了ThinkPatterns-21k数据集，该数据集包含21000个指令-回应对（问答），从现有指令跟随数据集中收集而来，并包括五种思考类型。对于每一对，作者在保持相同指令和回应的同时，增加五个不同的内部思考模式：一种无结构思考（独白）和四种结构化变体（分解、自我提问、自我辩论和自我批判）。

ThinkPatterns-21k数据集助力：剖析不同思考类型对3亿-32亿参数模型性能影响及关键发现公开共享 ！

视频修复指的是对视频中静态或动态的局部区域进行修改的过程，确保修复后的视频在空间和时间维度上展现出平滑自然的过渡。

MTVInpaint：多任务视频修复框架，以双分支注意力与两阶段流水线统一完成、插入任务，处理长视频 ！

从单张图像创建具有灵活视角的3D场景，在直接获取3D数据成本高或不切实际的应用领域（如考古保护和自主导航）中具有变革性潜力。然而，这一任务本质上仍然存在困难：单一的2D观测无法提供足够的信息来消除完整的3D结构歧义。特别是，在推理到极端视角（例如，180°旋转）时，之前被遮挡或完全不存在的内容可能会出现，从而引入显著的不确定性。

FlexWorld：引入视频到视频扩散模型与渐进扩展过程，从单张图像高效生成灵活视角3D 场景 ！

对抗性攻击一直威胁着AI系统的鲁棒性，特别是在大规模视觉-语言模型（LVLMs）领域。这些模型在融合视觉与语言理解的任务上表现出色，例如图像字幕生成[36]、视觉问答[30, 33]和视觉复杂推理[25, 34]。除了开源解决方案的进步之外，诸如GPT-4o [1]、Claude-3.5 [3] 和 Gemini-2.0 [37]等高级黑盒商业多模态模型也被广泛采用。然而，它们的广泛应用也带来了关键的安全挑战，因为恶意行为者可能利用这些平台传播虚假信息或生成有害输出。要解决这些问题，需要在黑盒环境中进行全面的对抗性测试，在这种环境中，攻击者对模型的内部配置和训练数据知之甚少。

突破黑盒商业LVLMs对抗难题：局部编码语义细节，随机裁剪优化，提升对抗示例转移性与攻击成功率 ！

在人工智能（AI）的迅猛发展背景下，本研究旨在探讨人工智能领域的最新进展及其在各个行业的应用。通过对相关文献的回顾和分析，本文将概述当前AI技术的发展趋势，并展望其在未来可能带来的变革。

自监督方法提升语言模型否定鲁棒性：引入NSPP及NSP变体，在九基准测试及CondaQA表现优异 !

Transformer [53] 架构对计算机视觉领域产生了深远的影响，它们灵活的注意力模块结构被认为是其成功的关键因素之一。尽管这些架构非常流行，但 Transformer 遇到了计算复杂度问题，因为其注意力机制的计算复杂度呈二次方增长 [2]，这导致了计算和内存使用的增加。因此，这给模型优化和扩展带来了重大挑战，阻碍了它们的广泛应用。为应对这一挑战，近期的研究引入了一些亚二次的架构，例如 Mamba 和 RWKV [13, 40]。然而，为了针对各种下游任务从头开始训练专门的亚二次模型，会面临显著的计算负担，并产生更高的二氧化碳排放量。幸运的是，作者观察到许多基于 Transformer 的预训练模型，例如 LLaVA [42] 和 CLIP [42] 等已经公开可用。

TransMamba：跨架构训练实现Transformer知识向Mamba迁移，两阶段策略及多方法赋能单多模态任务 !

医学图像分割对于提取结构细节以辅助诊断和治疗至关重要。深度学习通过多样化的网络架构显著推动了这一领域的发展，尤其是从UNet [1] 开始的U型编码器-解码器设计。随后，如  [2]、Attention U-Net [3]、UNet3  [4]、Rolling-UNet [5] 和 UNeXt [6] 等模型，引入了嵌套结构和密集跳接等创新，进一步提升了性能。

LSU-Net：融合轻量级卷积与Token化位移块，动态权重多损失设计助力医学图像高效分割 ！

大语言模型（LLMs）在ChatGPT等代表性的里程碑推动下取得了显著进展。它们能够以零样本的方式生成类似人类的对话，这标志着人机交互方式的根本转变。此外，最新的大语言模型展现了卓越的推理能力和非凡的泛化能力。然而，它们依赖于互联网文本集合的数据训练，因此在实现对物理世界的深刻理解方面仍有很大差距。与此同时，无处不在的Wi-Fi设备和广泛的Wi-Fi网络为扩展Wi-Fi的功能提供了机会，特别是在感知物理世界方面（Tan等人，2022年）。当Wi-Fi信号穿越物理环境时，它们会与周围的行人和物体相互作用，产生反射、衍射、散射等现象。因此，接收到的信号可以携带大量关于行人和环境的信息。传统的基于Wi-Fi的传感系统可以在物理环境中完成多种传感任务，例如活动识别和定位（Ma等人，2019年）。

Wi-Chat：首个基于LLM的 Wi-Fi 人体活动识别系统，开启零样本识别新范式！

半导体制造是一个复杂且多面的过程，其中缺陷可能是由于工艺不当或设备问题引起的。为了实现实时监控，会捕捉SEM图像并基于缺陷的外观对其进行分类，从而帮助缺陷检测和根本原因分析。与粗略的晶圆级缺陷图谱不同，SEM图像可以提供更详细的缺陷特征，从而有助于确定具体的过程步骤和设备。目前，缺陷检测主要依赖人工操作，这既费时又容易出错。开发自动缺陷检测系统已成为一种趋势。

SEM-CLIP:用于扫描电子显微镜图像中纳米级缺陷检测的精确少量学习 ！

命名实体识别（NER）是信息抽取（IE）领域的一项基础任务，旨在识别表示特定类型实体的跨度。它是关系抽取（Miwa和Bansal，2016年）、知识图谱构建（Xu等人，2017年）和问答系统（Molla、Van Zaanen和Smith，2006年）等众多下游任务的基础。

SeNER：结合双向机制与 LogNScaling，轻量级 NER 技术高效提取长文本实体 !

推理在塑造有效的决策过程和指导人工智能系统中的问题解决策略方面发挥着核心作用。对于大语言模型（LLMs）而言，实现推理的最有效方法是通过思维链，该方法逐个生成所有中间步骤的 Token ，直到最终答案得出。然而，利用LLMs生成正确的推理过程具有挑战性。一方面，思维链过程可能非常长，有时与 Prompt 长度呈多项式增长。当推理长度超过训练数据长度时，会遇到长度泛化问题，导致准确性显著下降。另一方面，网络数据通常存在噪声，从错误的轨迹中学习可能导致错误答案。虽然合成数据可以缓解这一问题，但生成和整理这些数据需要大量的人力和专业知识。

RELAY让循环 Transformer 助力CoT推理，微调自回归模型，实验证实效果显著提升！

近年来，生成逼真的人类运动视频受到了广泛关注，特别是在生成式人工智能的进步之后。与图像生成相比，视频生成面临更大的挑战，因为它不仅需要高质量的视觉效果，还需要帧与帧之间平滑的时间一致性，以保持视觉连贯性[68]。虚拟人类、动画电影和沉浸式体验等应用推动了可靠、高质量运动视频生成方法的需求。

HumanDiT 姿势引导框架来袭，支持多分辨率，长序列视频生成精准又高保真 ！

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋 

腾讯云代码助手

CODING DevOps

Cloud Studio

SDK中心

API中心

命令行工具

腾讯云开发者社区推出了AIGC 先锋科技专栏，为你提供了AIGC 先锋科技的相关文章，致力于帮助开发者快速成长与发展。

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐