AI智韵

代码在线跑，知识轻松学

Python精品学习库

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

博客搬家 | 分享价值百万资源包

往期视频·干货材料·成员作品 最新动态

技术创作特训营·精选知识专栏

新邀入驻腾讯云开发者社区，福利多多！

如何运用「云、端融合的数智化安全体系」高效护航数据安全

左手AI，右手安全 —— 一汽丰田数字化转型之路

近年来，基于Transformer和Mamba的架构在计算机视觉领域展现出强大的潜力。然而，现有方法通常只是简单堆叠这两类模块，缺乏深层次的交互机制。论文《A2Mamba: Attention-Augmented Mamba for Vision》提出了一种新型的混合视觉主干网络A2Mamba，通过多尺度注意力增强状态空间模型（MASS）实现了Transformer与Mamba的深度融合。

A2Mamba：融合Transformer与Mamba的混合视觉架构

目标检测的最新进展依赖于具有多尺度融合和注意力机制的模块化架构。然而，静态融合启发式方法和类无关注意力机制在存在遮挡、杂乱和类别不平衡的动态场景中限制了性能。我们提出动态类感知融合网络（DyCAF-Net），通过三项创新解决这些挑战：（1）一种基于输入条件的均衡颈部结构，通过隐式固定点建模迭代优化多尺度特征；（2）一种双动态注意力机制，利用输入和类别相关的线索自适应地重新校准通道和空间响应；（3）类感知特征适应，通过调制特征以优先考虑稀有类别的判别区域。通过与YOLOv8及相关架构进行的全面消融研究，以及与九个最先进基线模型的基准测试，DyCAF-Net在13个多样化基准测试中（包括高遮挡和长尾数据集）在精确率、mAP@50和mAP@50-95指标上均取得了显著提升。该框架保持了计算效率（约1110万参数）和具有竞争力的推理速度，同时其对尺度变化、语义重叠和类别不平衡的适应性使其成为医学成像、监控和自主系统等实际检测任务的稳健解决方案。DyCAF-Net的代码可在https://github.com/Abrar2652/DyCAF-NET 获取。 关键词—动态目标检测、类感知注意力、多尺度特征融合、隐式深度均衡模型、类别不平衡缓解

DyCAF-Net：动态类感知融合网络

你是否曾经感叹，虽然大型语言模型在数学推理上表现出色，但生成多个推理路径导致的计算成本却令人头疼？现在，一种名为DeepConf的新方法正在改变这一局面——它不仅能显著提升模型准确率，还能大幅降低计算开销，最高节省84.7%的Token生成量！

大幅节省计算成本，准确率反而飙升！DeepConf如何让AI推理既聪明又高效？

LoRA是"给大模型打补丁"的技术，只训练少量参数；QLoRA = 4-bit压缩大模型 + LoRA补丁，让普通电脑也能微调大模型。

QLoRA与LoRA的深度对比：从原理到实践（小白友好版）

试试看：复制以下提示词到任意AI工具（如ChatGPT、文心一言等），分别用两组参数生成：

【手把手教学】大模型"性格"调节指南：3个参数让你的AI听话又有趣

从无人机（UAV）视角对小型敏捷多目标（SMOT）——例如鸟类——进行跟踪是一项极具挑战性的计算机视觉任务。该任务的难点主要源于三个方面：目标外观特征极度稀缺、相机与目标自身复合动态所导致的复杂运动纠缠，以及密集群集行为引发的频繁遮挡与身份模糊问题。本文详细阐述了我们在MVA 2025“寻找鸟类”小目标多目标跟踪挑战赛（SMOT4SB）中夺冠的解决方案，该方案采用基于检测的跟踪范式，并在检测和关联层面进行了针对性创新。在检测方面，我们提出了一种名为SliceTrain的系统性训练增强框架。该框架通过“确定性全覆盖切片”与“切片级随机增强”的协同作用，有效解决了高分辨率图像训练中小目标学习不足的问题。在跟踪方面，我们设计了一种完全不依赖外观信息的鲁棒跟踪器。通过将运动方向维持（EMA）机制和结合边界框扩展与距离惩罚的自适应相似度度量集成至OC-SORT框架中，我们的跟踪器能够稳定处理不规则运动并维持目标身份。本方法在SMOT4SB公开测试集上达到了最先进的性能，SO-HOTA得分为55.205，充分验证了该框架在解决复杂现实世界SMOT问题中的有效性与先进性。源代码将发布于https://github.com/Salvatore-Love/YOLOv8-SM0T。

YOLOv8-SMOT：一种高效鲁棒的实时小目标跟踪框架：基于切片辅助训练与自适应关联

当所有人都在追逐千亿参数的“AI军备竞赛”时，小米却用一个仅70亿参数的模型，打了一场教科书级的逆袭战。

小米放大招！开源“最强7B视觉大模型”MiMo-VL：小模型干翻百B巨兽，还能一键关闭思考

图：DINOv3在4096×4096超高分辨率下的特征表现。通过PCA将特征映射为RGB，清晰展示了模型对细节的精准捕捉能力

DINOv3：无需标注的视觉革命，如何用16.89亿图像重塑AI未来

https://arxiv.org/pdf/2508.01730v1 多目标跟踪（MOT）旨在跟踪多个目标，同时在给定视频的帧之间保持一致的身份标识。在无人机（UAV）录制的视频中，频繁的视角变化和复杂的无人机-地面相对运动动力学带来了重大挑战，这通常导致不稳定的亲和力测量和模糊的关联。现有方法通常分别对运动和外观线索进行建模，忽略了它们的时空相互作用，导致次优的跟踪性能。在本工作中，我们提出了AMOT，它通过两个关键组件联合利用外观和运动线索：外观-运动一致性（AMC）矩阵和运动感知轨迹延续（MTC）模块。具体来说，AMC矩阵在外观特征的指导下计算双向空间一致性，从而实现更可靠和上下文感知的身份关联。MTC模块通过与基于卡尔曼的预测相一致的外观引导预测重新激活未匹配的轨迹，从而减少由于漏检导致的轨迹断裂。在三个UAV基准测试（包括VisDrone2019、UAVDT和VT-MOT-UAV）上的大量实验表明，我们的AMOT优于当前最先进的方法，并以即插即用和无需训练的方式很好地泛化。源代码将发布。

跟踪不稳定目标：基于外观引导的运动建模实现无人机视频中的鲁棒多目标跟踪

你是否曾经遇到过这样的尴尬？向AI绘画工具输入"画五个苹果"，结果生成的图片里要么只有三个，要么堆满了七八个？这种数量控制不精准的问题，一直是文本到图像(T2I)生成领域的顽疾。现在，清华等研究团队提出的YOLO-Count模型，终于让AI真正"心中有数"了！

AI终于&quot;心中有数&quot;！YOLO-Count让AI绘画精准理解&quot;五个苹果&quot;的指令

当你与ChatGPT、文心一言或通义千问对话时，是否曾好奇过：AI是如何理解你的话语并给出连贯回复的？为什么它能抓住句子中词语间的微妙关系，甚至能领会言外之意？

AI如何理解语言？自注意力机制的技术原理与代码实践

导语：当ChatGPT回答"火车以每小时60英里的速度行驶3小时，走了多远"时，它会直接告诉你"180英里"，而推理模型会先解释"距离=速度×时间"的公式，再一步步计算。这种"思考过程"正是推理大模型的核心价值。2024年，AI领域正经历从"通用大模型"向"专业化推理模型"的关键转变，今天我们就来深度解析这一趋势背后的秘密。

深度解析：推理大模型如何改变AI格局？四种构建方法与低成本实践指南

在无人机翱翔的高空视角下，一个成年人可能只有"芝麻粒"大小，一辆汽车也不过是"米粒"大小。如何让无人机在数百米高空精准识别这些微小目标，一直是计算机视觉领域的"老大难"问题。近日，一项名为SOD-YOLO的创新技术横空出世，让无人机在小目标检测领域实现了性能飞跃——相比现有技术，检测精度最高提升**36.1%**！这项突破究竟有何神奇之处？让我们一探究竟。

小目标检测新突破：SOD-YOLO让无人机&quot;看得更清&quot;，性能提升36%！

通用目标跟踪仍是计算机视觉领域一项重要且具有挑战性的任务，其难点在于复杂的时空动态变化，尤其在存在遮挡、相似干扰物和外观变化的情况下。过去二十年间，为应对这些挑战，研究者提出了多种跟踪范式，包括基于孪生网络的跟踪器、判别式跟踪器以及近期突出的基于Transformer的方法。尽管现有综述论文或聚焦单一类别，或广泛覆盖多类以追踪进展，但本文对三类方法均进行了全面综述，尤其强调快速发展的基于Transformer的方法。我们通过定性与定量比较，分析了各类方法的核心设计原则、创新点及局限性。本研究提出了一种新的分类方式，并提供了代表性方法的统一可视化与表格对比。此外，我们从多角度梳理现有跟踪器，总结主要评估基准，突出基于Transformer的跟踪方法因其强大的时空建模能力而取得的快速进展。

深入剖析通用目标跟踪：一项综述

随着大模型技术的成熟，国产AI编程工具已从“代码补全”向“全栈开发”演进，形成三大核心趋势：

国产AI编程辅助插件汇总与分析

SFSORT算法通过创新的动态阈值调整、区域感知轨迹管理和混合代价度量，在复杂场景下实现了鲁棒的多目标跟踪，同时通过向量化计算和内存优化保证了实时性能。

【跟踪实战】手把手教你SFSORT跟踪实战

你是否遇到过这样的情况：满怀期待地向大语言模型（LLM）提问，得到的回答却像卡带的录音机，不断重复着相同的词语、句子，甚至整段内容？这就是困扰许多用户的LLM“复读机”问题。它不仅让回答显得机械呆板，缺乏创造力，更严重影响了信息传递的效率和用户体验。

大模型变身复读机？揭秘原因与实用解药

2025年7月4日，一份发布于GitHub的技术报告如同投入AI行业的深水炸弹。一位自称哥斯达黎加大学韩国学生的研究者@HonestAGI，采用“LLM指纹”技术分析指出：华为盘古Pro MoE模型与阿里通义千问Qwen-2.5 14B模型的参数分布相似度高达0.927（1.0为完全一致），远超业内0.7以下的正常差异范围。

AI开源伦理临大考，如何判定抄袭

6月23日，在百度AI开放日上，百度智能代码助手“文心快码”迎来重大升级。百度副总裁陈洋正式发布其独立AI原生开发环境工具——Comate AI IDE。这是业界首个深度融合多模态与多智能体协同能力的AI IDE，其革命性的“设计稿一键转代码”（F2C）功能开箱即用，旨在为国内企业和开发者提供高效、智能、安全可靠的开发新体验。目前，百度每日新增代码中，文心快码的生成占比已超过43%。

百度文心快码发布Comate AI IDE：首创设计稿一键转代码，打造多模态、多智能体协同开发环境

在AI战场，“幻觉”曾是阻碍大模型落地的头号敌人。而检索增强生成（RAG）技术，凭借其“用事实为生成保驾护航”的能力，成为企业对抗幻觉的标配武器。从2023年至今，RAG经历了从“机械查资料”到“主动思考”的惊人进化。本文将带你穿越这场技术变革的五个关键阶段，揭示AI如何从“复读机”蜕变为“智能协作者”。

RAG进化论：从“字典”到“超级大脑”的跃迁之路

文章

问答

视频

学习中心

腾讯云实验室

直播

竞赛

腾讯云代码分析专区

腾讯iOA零信任安全管理系统专区

腾讯云架构师技术同盟交流圈

腾讯云数据库专区

腾讯云顾问专区

腾讯云原生专区

腾讯混元专区

腾讯云TCE专区

腾讯云Lighthouse专区

腾讯云HAI专区

腾讯云Edgeone专区

腾讯云存储专区

腾讯云智能专区

腾讯轻联专区 

腾讯云开发专区

TAPD专区

腾讯轻量云游戏服专区

腾讯云最具价值专家

腾讯云架构师技术同盟

腾讯云创作之星

腾讯云开发者先锋

腾讯云代码助手

云原生构建

TAPD 敏捷项目管理

Cloud Studio

SDK中心

API中心

命令行工具

涵盖代码开发、场景应用、自动测试全流程，助你从零构建专属AI助手

一站式MCP教程库，解锁AI应用新玩法

腾讯云开发者社区推出了AI智韵专栏，为你提供了AI智韵的相关文章，致力于帮助开发者快速成长与发展。

AI智韵

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐