首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >Agentic AI 每日精选 · 2026-01-07

Agentic AI 每日精选 · 2026-01-07

作者头像
AgenticAI
发布2026-01-12 13:30:54
发布2026-01-12 13:30:54
1300
举报
文章被收录于专栏:AgenticAIAgenticAI

Daily · Paramind AI

每日 5 分钟速览,甄选 GitHub 趋势、模型动向、行业洞察与研究论文。

今日速览

今日AI领域呈现多模态融合与高效推理并进趋势,Hugging Face热门模型LTX-2实现音视频同步生成,Qwen-Image-Lightning通过轻量化提升推理效率,推动生成式AI落地。同时,前沿研究聚焦RAG、Agent与LLM,在医疗安全、智能体持久化等方面取得突破,彰显AI向实用化与鲁棒性演进的价值。

01 / TRENDING MODELS

Lightricks/LTX-2

Lightricks/LTX-2是一款基于DiT架构的多模态音频-视频基础模型,专注于生成同步的视频和音频。该模型具有灵活的下载量和点赞数,支持多种语言,并采用diffusers库。LTX-2在图像到视频、文本到视频等多个领域具有广泛应用,其开源协议和丰富的模型版本提供了灵活的部署选项。在性能上,LTX-2在多模态任务中表现出色,尤...

lightx2v/Qwen-Image-2512-Lightning

lightx2v/Qwen-Image-2512-Lightning是一款基于Qwen-Image-2512的轻量级图像生成模型,定位为多模态模型。其核心技术包括diffusers库和LoRA技术,支持文本到图像的转换。该模型在Hugging Face...

02 / SCIENTIFIC RESEARCH

#01医疗AI系统安全提升:模拟多模态RAG系统漏洞与威胁

这篇论文提出了一种名为MedThreatRAG的多模态中毒框架,用于系统地探测医疗RAG系统的漏洞。该框架通过注入对抗性图像-文本对来模拟攻击,并强调了跨模态冲突注入(CMCI)技术,以揭示临床RAG系统中的基本安全漏洞,并强调了威胁感知设计和稳健的多模态一致性检查的必要性。

#02CaveAgent:将LLM转型为持久运行操作者

这篇论文提出了CaveAgent,一个将LLM转变为状态化运行时操作员的框架。它通过引入双流上下文架构和状态化运行时管理,解决了传统方法在处理长时程任务时的脆弱性和上下文漂移问题,显著提高了任务执行的成功率和效率。

#03异构低带宽LLM预训练

这篇论文提出了一种名为SparseLoCo的低通信数据并行方法,结合低带宽流水线模型并行,用于预训练大型语言模型(LLMs)。通过稀疏伪梯度交换和激活梯度压缩,该方法在保证模型性能的同时,减少了通信成本,尤其适用于带宽受限的环境。

#04迈向原理性μ子μP:训练全程确保谱条件

这篇论文提出了一种名为 Muon++ 的优化器,用于大型语言模型的训练,通过确保在整个训练过程中满足 mu-参数化(muP)的谱条件,从而实现可预测的扩展行为和鲁棒的超参数迁移。

#05视频语言模型评估新范式:NarrativeTrack

这篇论文提出了NarrativeTrack,一个用于评估视频语言模型(VLM)在理解视频中叙事的能力的基准。它通过细粒度的实体中心推理来评估叙事理解,并揭示了在感知基础和时序推理之间的基本权衡。

#06ManiBox:通过可扩展模拟数据生成提升具身空间泛化

这篇论文提出了ManiBox,一个通过可扩展的模拟数据生成来增强具身智能体空间泛化的框架。ManiBox通过解耦感知与策略泛化,有效减少了Sim2Real差距,利用互联网规模的数据,并在模拟中扩展策略数据收集。该框架通过高效的RL教师策略生成可扩展的模拟数据,学生策略从这些数据中提炼,并使用边界框作为输入,从而实现零样本迁移到真实机器人。

#07基于类比的路由:混合专家分配的kNN增强

这篇论文提出了一种名为kNN-MoE的检索增强路由框架,用于提高混合专家(MoE)架构在大型语言模型中的路由决策的鲁棒性。该方法通过重用过去相似案例中的最佳专家分配来优化路由,并在没有相关案例时回退到冻结的路由器。

#08Warp-Cortex:百万智能体认知扩展的异步高效架构

这篇论文提出了Warp Cortex,一种异步架构,通过解耦代理逻辑与物理内存,实现了在消费级硬件上对百万级智能体认知的扩展。它通过单例权重共享和拓扑突触技术,显著降低了内存复杂度,并在NVIDIA RTX 4090上实现了100个并发代理,展示了在消费级硬件上进行大规模多智能体认知计算的潜力。

#09病理诊断迈向可审计的神经符号推理:SQL作为证据显式追踪

这篇论文提出了一种基于SQL的神经符号推理框架,用于病理图像分析。该框架通过提取可解释的细胞特征,并使用特征推理代理来执行SQL查询,将视觉证据汇总成定量结果,然后通过知识比较代理将这些结果与已建立的病理知识进行比较,从而实现可审计的推理过程。

PARAMIND AI · INTELLIGENCE

覆盖 GitHub、Hugging Face 与行业研报核心信息 · 今日更新 保持好奇,持续进化

想深入阅读并查看 AI 解读?点击“阅读原文”获取完整资料与上下游链接。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-01-07,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AgenticAI 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • #01医疗AI系统安全提升:模拟多模态RAG系统漏洞与威胁
  • #02CaveAgent:将LLM转型为持久运行操作者
  • #03异构低带宽LLM预训练
  • #04迈向原理性μ子μP:训练全程确保谱条件
  • #05视频语言模型评估新范式:NarrativeTrack
  • #06ManiBox:通过可扩展模拟数据生成提升具身空间泛化
  • #07基于类比的路由:混合专家分配的kNN增强
  • #08Warp-Cortex:百万智能体认知扩展的异步高效架构
  • #09病理诊断迈向可审计的神经符号推理:SQL作为证据显式追踪
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档