前往小程序,Get更优阅读体验!
立即前往
发布
社区首页 >专栏 >每日学术速递1.10

每日学术速递1.10

作者头像
AiCharm
发布2025-01-10 13:14:02
发布2025-01-10 13:14:02
1140
举报
文章被收录于专栏:AiCharm

CV - 计算机视觉 | ML - 机器学习 | RL - 强化学习 | NLP 自然语言处理

Power by Kimi&苏神 编辑丨AiCharm

Subjects: cs.CV

1.Dispider: Enabling Video LLMs with Active Real-Time Interaction via Disentangled Perception, Decision, and Reaction

标题: Dispider:通过解耦感知、决策和反应实现视频LLMs的主动实时交互

作者:Rui Qian, Shuangrui Ding, Xiaoyi Dong, Pan Zhang, Yuhang Zang, Yuhang Cao, Dahua Lin, Jiaqi Wang

文章链接:https://arxiv.org/abs/2501.03218

项目代码:https://github.com/Mark12Ding/Dispider

摘要:

主动实时交互视频LLMs 引入了一种新的人机交互范式,其中模型不仅可以理解用户意图,还可以在响应的同时持续动态处理流视频。与离线视频LLMs)在回答问题之前分析整个视频不同,主动实时交互需要三个能力:1) 感知:实时视频监控和交互捕捉。2) 决策:在适当的情况下提高主动互动,3) 反应:与用户持续互动。但是,所需功能之间存在固有的冲突。Decision 和 Reaction 需要相反的 Perception 量表和颗粒,而自回归解码会阻止 Reaction 期间的实时 Perception 和 Decision。为了在一个和谐的系统中统一冲突的能力,我们提出了 Dispider,一个解开感知、决策和反应的系统。Dispider 具有轻量级主动流式视频处理模块,可跟踪视频流并确定交互的最佳时刻。触发交互后,异步交互模块会提供详细的响应,同时处理模块会继续监控视频。我们的解纠缠和异步设计确保了及时、上下文准确和计算高效的响应,使 Dispider 成为长时间视频流主动实时交互的理想选择。实验表明,Dispider 不仅在常规视频 QA 任务中保持了强大的性能,而且在流式场景响应方面也明显超越了以前的在线模型,从而验证了我们架构的有效性。

这篇论文试图解决什么问题?

论文提出了一个名为Dispider的系统,旨在解决视频大型语言模型(Video LLMs)在主动实时交互方面的挑战。具体来说,论文试图解决的问题包括:

  1. 实时视频监控和交互捕获(Perception):需要实时监测视频流并捕获交互的时机。
  2. 在适当情况下主动交互(Decision):模型需要判断何时触发交互。
  3. 与用户的持续交互(Reaction):模型需要能够持续地与用户进行交互。

论文指出,这些所需能力之间存在固有的冲突,例如,决策和反应需要相反的感知(Perception)规模和粒度,并且自回归解码会阻塞实时感知和决策期间的反应。为了在和谐系统中统一这些冲突的能力,Dispider系统将感知、决策和反应解耦为异步模块,以并行方式运行。这使得系统能够在处理视频流的同时提供及时、准确和计算效率高的响应,特别适合于长时视频流的主动实时交互。

论文如何解决这个问题?

论文通过提出一个名为Dispider的系统来解决视频LLMs在主动实时交互中的问题。Dispider通过以下几个关键组件来解决这个问题:

1. 问题公式化

Dispider首先将问题公式化,目标是在不需要处理整个视频序列的情况下,根据观察到的视频内容和上下文序列生成及时准确的对话响应。

2. 异步模块设计

Dispider将感知(Perception)、决策(Decision)和反应(Reaction)这三个关键能力解耦为独立的异步模块,允许它们并行操作,从而克服了传统视频LLMs中这些能力之间的固有冲突。

感知模块(Scene-based Perception Module)
  • 动态地将视频流分割为基于场景边界的非均匀剪辑,保留了视频的结构信息,使模型能够集中注意力在最具信息量的部分,同时去除冗余,保持上下文信息。
决策模块(Real-time Response Decision Module)
  • 根据迄今为止观察到的视频内容和历史上下文,评估模型是否应该生成响应或继续等待更多的视频内容。
  • 使用交错序列格式,结合视频特征、问题信息和决策标记,以二元分类头预测是否在每个时间戳生成响应。
反应模块(Asynchronous Interaction Module)
  • 一旦触发交互,专用的异步模块被用来生成针对性的上下文细粒度响应。
  • 通过计算与特定标记嵌入的余弦相似度来检索相关的历史剪辑,支持多跳推理。
  • 引入特殊标记如⟨ANS⟩、⟨TODO⟩和⟨SILENT⟩来标记响应动作、指示响应决策和表示沉默,确保决策模块不被响应生成过程阻塞。

3. 训练和推理

  • Dispider在专门的流式QA数据集上进行训练,模拟实时交互场景。
  • 采用两阶段训练过程:首先训练流视频处理器和响应决策模块,然后训练最终的交互模块。
  • 在推理时,对于传统基准测试,将问题放在视频末尾以与先前工作进行公平比较;对于流式评估,则在视频开始时提出问题,以实现主动响应。

4. 实验验证

  • 通过在实时视频流交互(StreamingBench)和传统视频QA基准测试(EgoSchema、VideoMME、MLVU)上的实验,验证Dispider在主动响应能力、时间感知和计算效率方面优于现有方法。

论文做了哪些实验?

论文中进行了以下实验来评估Dispider的性能:

1. 实施细节(Implementation Details)

  • Dispider使用一个紧凑型的大型语言模型(LLM)作为响应决策的流视频处理器,以及一个更大的LLM作为精确交互模块。
  • 输入视频帧被调整为224×224大小,并使用CLIP-L/14来提取帧特征。
  • 使用VideoStream中的标记压缩技术,通过连接相邻的标记并使用紧凑型LLM(Qwen2-1.5B)生成时间感知的压缩剪辑特征和剪辑指示符。
  • 使用相同的紧凑型LLM处理包含全局记忆、问题文本和剪辑特征的序列以进行响应决策。
  • 最终的LLM(Qwen27B)接收定位剪辑和全局记忆以在必要的时间戳生成响应。
  • 采用两阶段训练过程:首先训练流视频处理器和响应决策模块,然后训练最终的交互模块。

2. 基准测试(Benchmarks)

  • 使用一系列基准测试来评估Dispider在不同方面的长视频QA和流视频理解能力。
StreamingBench
  • 用于评估多模态大型语言模型(MLLMs)流视频理解的最新全面基准测试。
  • 包含900个视频和4500个人工注释的QA对,每个视频有五个在不同时间戳提出的问题。
ETBench子集
  • 除了StreamingBench,还使用ETBench的一个子集构建流视频QA基准测试,以衡量模型在实时视频交互中的主动响应能力。
  • 选择了六个需要模型预测显式事件时间戳的子任务,包括步定位(SLC)、密集视频描述(DVC)、时间动作定位(TAL)、时间视频定位(TVG)、情节记忆(EPM)和视频高光检测(VHD)。
长视频QA基准测试
  • 采用几个长视频QA基准测试,包括EgoSchema、VideoMME和MLVU。
  • EgoSchema包含超过5K个大约3分钟长的视频,而VideoMME和MLVU包含从几分钟到几个小时不等长度的视频。

3. 流视频理解(Streaming Video Understanding)

  • 评估Dispider在流视频交互中的性能,强调其处理实时输入和动态响应的能力。
  • 问题在视频开始时提出,模型仅在检测到相关线索时生成响应,否则保持沉默,以实现有意义的上下文感知交互。

4. 传统视频理解(Conventional Video Understanding)

  • 将Dispider与传统视频LLMs在常规视频QA基准测试中进行比较,其中模型需要在观看完整视频后提供一个答案。

5. 消融研究(Ablation Study)

  • 对剪辑分割策略和特殊标记设计进行了消融研究,以评估它们对模型性能的影响。

这些实验全面评估了Dispider在主动实时交互、时间感知、计算效率以及与传统视频LLMs相比的性能。通过这些实验,论文证明了Dispider在处理长时视频流和实时交互场景中的有效性和优越性。

论文的主要内容:

这篇论文提出了一个名为Dispider的系统,旨在解决视频大型语言模型(Video LLMs)在主动实时交互方面的挑战。以下是论文的主要内容概述:

问题背景

传统的视频LLMs主要用于离线设置,需要观看完整视频后才生成响应,不适合实时、交互式场景。

Dispider系统介绍

Dispider通过解耦感知(Perception)、决策(Decision)和反应(Reaction)三个模块,并采用异步处理方式,实现了对视频流的实时处理和交互。

感知模块负责持续监控视频流并动态分割视频。

决策模块基于交互历史和实时视频内容判断是否触发交互。

反应模块在触发时生成详细的响应,同时不影响视频流的持续处理。

方法论

论文详细介绍了Dispider的各个模块,包括场景感知模块、实时响应决策模块和异步交互模块。

描述了如何通过特殊标记和二元分类头来训练决策模块,以及如何通过余弦相似度和KL散度损失来训练交互模块。

实验

论文通过一系列实验验证了Dispider在实时视频流交互和传统视频QA任务上的性能。

Dispider在多个基准测试中表现优异,特别是在主动响应能力、时间感知和计算效率方面。

结论

Dispider通过其解耦架构和异步处理能力,在长时视频流的实时交互应用中提供了及时、准确和计算效率高的响应。

未来工作

论文提出了未来可能的研究方向,包括多模态融合策略的改进、计算效率的优化、交互式学习、长视频理解的深度和广度的扩展等。

总体而言,这篇论文提出了一个创新的系统,通过解耦和异步处理,有效地实现了视频LLMs在实时交互场景中的应用,并通过实验验证了其有效性。

2. Segment Anything Model for Zero-shot Single Particle Tracking in Liquid Phase Transmission Electron Microscopy

标题: Segment Anything 模型,用于液相透射电子显微镜中的零散单粒子跟踪

作者:Risha Goel, Zain Shabeeb, Isabel Panicker, Vida Jamali

文章链接:https://arxiv.org/abs/2501.03153

项目代码:https://github.com/JamaliLab/SAM4EM

摘要:

液相透射电子显微镜 (LPTEM) 提供了无与伦比的空间和时间分辨率组合,使其成为纳米级单粒子跟踪的有前途的工具。然而,缺乏用于识别和跟踪噪声 LPTEM 视频中纳米粒子的标准化框架阻碍了该领域将该技术开发为单一粒子跟踪工具的进展。为了解决这个问题,我们利用了 Meta 发布的 Segment Anything Model 2 (SAM 2),这是一个为分割视频和图像而开发的基础模型。在这里,我们证明了 SAM 2 可以成功地以零镜头的方式分割 LPTEM 视频,而无需微调。基于此功能,我们引入了 SAM4EM,这是一个全面的框架,它将可提示的视频分割与粒子跟踪和统计分析集成在一起,为单个粒子跟踪提供端到端的 LPTEM 分析框架。与最先进的方法相比,SAM4EM 在分割和分析 LPTEM 视频方面的精度提高了近 50 倍,为 LPTEM 在纳米级成像中的更广泛应用铺平了道路。

这篇论文试图解决什么问题?

这篇论文试图解决的主要问题是在液相透射电子显微镜(Liquid phase transmission electron microscopy, LPTEM)领域中,缺乏一个标准化的框架来识别和跟踪视频中的纳米颗粒。LPTEM技术因其在纳米尺度上无与伦比的空间和时间分辨率而成为一个有前景的单粒子跟踪工具。然而,由于LPTEM视频中信号与噪声比(SNR)低,加之液体层带来的噪声,使得现有的为光学显微镜开发的分割算法不适用于LPTEM视频的分割。此外,纳米尺度下颗粒的行为具有随机性,它们可能在连续帧之间发生大幅度位移,甚至移出画面。因此,需要一个能够接收用户提示以识别目标颗粒,并能够区分视频中的颗粒和伪影的分割算法。同时,该算法还必须能够维持对之前帧中颗粒的记忆,以实现对视频中多个颗粒的同时跟踪。论文中提出了一个名为SAM4EM的综合框架,它整合了视频分割、颗粒跟踪和统计分析,提供了一个端到端的LPTEM分析框架,用于单粒子跟踪。

论文如何解决这个问题?

论文通过以下几个步骤解决液相透射电子显微镜(LPTEM)视频中单粒子跟踪的问题:

利用Segment Anything Model 2 (SAM 2)

论文首先引入了Meta发布的SAM 2模型,这是一个用于视频和图像分割的基础模型。SAM 2采用视觉变换器架构,能够在无需针对特定数据集的微调或重新训练的情况下,成功地以零样本(zero-shot)方式分割LPTEM视频。

开发SAM4EM框架

在SAM 2的基础上,研究者开发了SAM4EM框架,这是一个综合的视频分割、颗粒跟踪和统计分析的端到端LPTEM分析框架。该框架通过用户提示(如点击或框选目标纳米颗粒)来辅助视频分割,并链接分割掩膜以形成随时间变化的每个跟踪颗粒的轨迹。

交互式用户界面

SAM4EM设计了一个交互式用户界面,允许用户通过点击或提供边界框来标注视频中需要跟踪的颗粒,使得用户可以直观地与视频帧进行交互。

统计分析

一旦实现了成功的分割,就可以使用开源的Python库来提取掩膜颗粒的质心位置和方向,进而对视频中颗粒的时空轨迹进行统计分析。

模拟实验验证

为了测试SAM4EM框架的准确性,研究者模拟了具有真实掩膜的合成单粒子LPTEM视频,并使用J&F准确度指标来评估模型性能。模拟结果表明,SAM4EM在分割LPTEM视频方面的性能优于现有的最先进的方法。

实时分割和自动化

论文还提到了SAM 2模块在接近50 fps的速度进行实时分割的潜力,这将有利于将该框架与显微镜控制软件集成,推进AI在显微镜领域的自动化。

通过这些步骤,论文不仅提出了一个能够处理LPTEM视频的先进框架,而且还展示了如何利用大规模AI模型来泛化到新的数据集,从而为LPTEM作为单粒子跟踪工具的发展铺平了道路。

论文做了哪些实验?

根据论文内容,作者进行了以下实验:

LPTEM实验

使用Protichips Inc.的微加工硅氮化物芯片封装金纳米棒溶液进行LPTEM成像。

芯片经过清洁和辉光放电处理以确保液体在芯片表面均匀分布。

将芯片组装成液体池,并使用FEI Tecnai F30 TEM在200 kV下进行成像,视频以35 e−/˚A2·s的电子束剂量率、19.5 kx的放大倍数和1024 × 1024像素的分辨率以80帧每秒的速率记录。

LPTEM数据预处理

将收集的LPTEM数据从.dm4格式转换为.tiff文件,然后使用Python算法将这些文件转换为8位3通道RGB JPEG文件,以适配SAM 2模型。

LPTEM模拟视频生成

使用Yao等人之前描述的方法生成LPTEM模拟视频,该方法已被转换为Python并根据实验条件进行了修改。

SAM 2视频分割

将Meta发布的原始SAM 2视频分割模型适配并创建了更直观的用户界面,以便于颗粒分割跟踪。

单粒子轨迹分析

从分割掩膜数组中计算每个粒子在每帧中的质心位置和方向,并将数据保存为.csv文件。

使用三个关键统计指标(时间平均均方位移、速度自相关和位移分布)来表征LPTEM实验中纳米颗粒的扩散行为。

J&F准确度指标评估

使用J&F准确度指标评估模拟单粒子数据集上的分割准确性,该指标范围从0%到100%,100%表示预测完全匹配真实情况。

U-Net LPTEM图像分割基线

使用Yao等人的U-Net模型作为基线,对模拟数据集进行分割,并训练了20个周期。

这些实验涵盖了从实际的LPTEM数据采集到模拟数据的生成,再到使用SAM 2和U-Net模型进行视频分割,并最终评估分割准确性的全过程。通过这些实验,作者验证了SAM4EM框架的有效性和准确性。

论文的主要内容:

这篇论文的主要内容包括以下几个方面:

问题陈述

论文指出了在液相透射电子显微镜(LPTEM)领域中,缺乏一个标准化的框架来识别和跟踪LPTEM视频中的纳米颗粒,这限制了LPTEM技术作为单粒子跟踪工具的发展。

技术解决方案

论文引入了Meta发布的Segment Anything Model 2(SAM 2),这是一个用于视频和图像分割的基础模型,能够在无需针对特定数据集的微调或重新训练的情况下,成功地以零样本(zero-shot)方式分割LPTEM视频。

SAM4EM框架

论文提出了SAM4EM框架,这是一个综合的视频分割、颗粒跟踪和统计分析的端到端LPTEM分析框架,旨在提高LPTEM视频的分割和分析准确性。

实验验证

通过模拟合成的LPTEM视频和真实的LPTEM实验数据,论文验证了SAM4EM框架的准确性和有效性。与现有的U-Net模型相比,SAM4EM在零样本分割任务中表现出更高的准确度。

方法细节

论文详细描述了LPTEM实验的设置、数据预处理、模拟视频生成、视频分割、单粒子轨迹分析以及J&F准确度指标评估等实验步骤。

结果讨论

论文讨论了SAM4EM框架在处理LPTEM视频方面的优势,包括其在零样本学习中的高性能、实时分割的潜力以及对显微镜领域自动化的贡献。

未来方向

论文提出了未来可能的研究方向,包括算法优化、实时视频处理、多模态数据融合、用户界面改进、统计分析方法扩展、模型泛化能力测试、计算资源优化、模型解释性提高以及跨学科应用等。

代码可用性

论文提供了所有相关代码的GitHub链接,以促进研究的可重复性和进一步发展。

总体而言,这篇论文展示了如何利用先进的人工智能模型来解决LPTEM领域中的一个关键挑战,并提出了一个强大的框架来推动LPTEM技术在纳米尺度成像中的应用。

3.Gaussian Masked Autoencoders Gaussian Masked

标题: 自动编码器

作者:Jathushan Rajasegaran, Xinlei Chen, Rulilong Li, Christoph Feichtenhofer, Jitendra Malik, Shiry Ginosar

文章链接:https://arxiv.org/abs/2501.03229

项目代码:https://brjathu.github.io/gmae/

摘要:

本文探讨了具有高斯展开的掩码自动编码器 (MAE)。虽然重建性自我监督学习框架(如 MAE)可以学习良好的语义抽象,但它没有接受过显式空间意识的训练。我们的方法名为 Gaussian Masked Autoencoder 或 GMAE,旨在共同学习语义抽象和空间理解。与 MAE 一样,它在像素空间中端到端重建图像,但除了 MAE 之外,它还引入了一种基于 3D 高斯的中间表示,并通过展开渲染图像。我们表明,GMAE 可以实现空间理解的各种零样本学习能力(例如,图形-地面分割、图像分层、边缘检测等),同时保留 MAE 的自我监督表示质量的高级语义。据我们所知,我们是第一个在图像表示学习框架中使用高斯基元的公司,超越了基于优化的单场景重建。我们相信 GMAE 将激发这一方向的进一步研究,并为开发下一代高保真视觉数据建模技术做出贡献。

这篇论文试图解决什么问题?

这篇论文试图解决的问题是如何在自监督学习框架中联合学习图像的高级语义抽象和空间理解。具体来说,论文探讨了一种名为高斯掩蔽自编码器(Gaussian Masked Autoencoders, GMAE)的方法,旨在通过引入一个基于3D高斯的中间表示来同时学习图像的语义抽象和空间结构。这种方法不仅能够在像素空间端到端地重建图像,而且还能够通过高斯渲染技术来学习图像的空间结构,从而实现对图像中对象和场景的更深层次理解。

论文如何解决这个问题?

论文通过提出高斯掩蔽自编码器(Gaussian Masked Autoencoders, GMAE)来解决这个问题。GMAE的核心思想是在自监督学习框架中引入一个基于3D高斯的中间表示,以联合学习图像的高级语义抽象和空间理解。以下是具体的解决步骤和方法:

基于MAE的框架

GMAE基于掩蔽自编码器(MAE)框架,通过随机掩蔽输入图像的部分区域,并预测这些掩蔽区域来学习数据分布。

引入3D高斯中间表示

与MAE直接预测像素不同,GMAE的解码器预测显式的3D高斯参数,包括颜色、不透明度、中心位置、尺度和方向。

每个高斯由一个14维向量参数化,包括位置、尺度、旋转(由四元数表示)、颜色和不透明度。

高斯渲染(Splatting)

预测的高斯通过可微分渲染器渲染成图像。这一过程称为splatting,它将3D高斯映射回像素空间,使得模型能够端到端地使用像素空间的均方误差损失进行训练。

联合学习语义和空间表示

GMAE通过渲染高斯集合来重建图像,同时学习图像的语义抽象和空间结构。这种联合学习方式使得模型能够捕捉到图像中对象和场景的空间层级关系。

零样本学习能力

由于引入了3D高斯表示,GMAE具备了零样本学习空间理解任务的能力,例如前景-背景分割、图像分层和边缘检测,而无需针对这些任务进行显式训练。

保持语义抽象

尽管引入了空间表示,GMAE在标准监督图像识别任务上的表现与MAE相当,表明其学习到的表示仍然具有高质量的语义抽象。

效率和可扩展性

GMAE的训练开销与标准MAE相比增加不大,splatting操作仅使计算时间增加了1.5%,这表明GMAE是一种既有效又可扩展的解决方案。

通过这些方法,GMAE不仅能够学习图像的高级语义表示,还能够捕捉到图像中的空间结构,从而在多种视觉任务中展现出优异的性能和灵活性。

论文做了哪些实验?

论文中进行了一系列实验来评估GMAE模型的性能和有效性。以下是实验的详细内容:

设计选择(Design Choices)

高斯数量(Number of Gaussians):研究了在预训练过程中使用不同数量的高斯(64, 128, 256, 和 512)对ImageNet分类性能的影响。

高斯尺度(Gaussian Scale):研究了最大允许尺度值对分类性能和重建质量的影响。

掩蔽比例(Masking Ratio):研究了不同的掩蔽比例对预训练模型性能的影响。

损失应用(Loss):研究了不同的损失应用方式(全部补丁、仅掩蔽补丁、归一化补丁损失)对模型性能的影响。

监督任务(Supervised Tasks)

图像识别(Image Recognition):在ImageNet1k数据集上评估了不同预训练模型的分类性能。

目标检测和分割(Object Detection and Segmentation):在COCO数据集上评估了模型在目标检测和分割任务上的性能。

无监督任务(Unsupervised Tasks)

图像重建质量(Image Reconstruction Quality):评估了模型的图像重建质量,使用重建FID分数进行衡量。

零样本前景-背景分割(Zero-shot Figure-Ground Separation):评估了模型在PASCAL数据集上进行前景-背景分割的能力。

零样本边缘检测(Zero-shot Edge Detection):评估了模型在BSDS500数据集上进行边缘检测的性能。

定性结果(Qualitative Results)

高斯在xy平面上的分布(Distribution of Gaussians in xy):展示了不同图像中高斯的动态分布情况。

尺度与深度的关系(Size vs Depth):分析了预测的高斯尺度值与深度之间的关系。

这些实验不仅验证了GMAE模型在监督学习任务中的性能,还展示了其在无监督学习任务中的零样本学习能力,特别是在空间理解任务(如前景-背景分割和边缘检测)上的优势。通过这些实验,论文证明了GMAE模型在图像表示学习中的有效性和潜力。

论文的主要内容:

这篇论文的主要内容包括以下几个方面:

问题定义

论文探讨了如何在自监督学习框架中联合学习图像的高级语义抽象和空间理解。

方法论(GMAE)

提出了一种名为高斯掩蔽自编码器(Gaussian Masked Autoencoders, GMAE)的方法,通过引入3D高斯中间表示来同时学习图像的语义和空间结构。

GMAE利用像素空间的重建损失来训练模型,并通过splatting过程将3D高斯映射回像素空间。

相关工作

论文回顾了自监督学习、中间层表示和高斯渲染等相关领域的研究进展。

实验

通过一系列实验验证了GMAE在设计选择、监督任务(如图像分类和目标检测)以及无监督任务(如图像重建、前景-背景分割和边缘检测)中的性能。

展示了GMAE在零样本学习能力方面的优势,尤其是在空间理解任务上。

定性分析

提供了高斯在xy平面上的分布和尺度与深度关系的定性分析,展示了模型如何动态地根据输入图像调整高斯参数。

讨论与未来方向

论文讨论了GMAE的优势和局限性,并提出了未来可能的研究方向,包括扩展高斯数量、优化训练策略和提高渲染效率等。

贡献

论文认为GMAE可以激发更多关于图像表示学习的研究,并为开发下一代高保真视觉数据建模技术做出贡献。

总的来说,这篇论文提出了一种新的自监督学习方法GMAE,该方法通过引入3D高斯中间表示来联合学习图像的语义和空间信息,并在多个视觉任务中展示了其有效性。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-01-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 AiCharm 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 1. 问题公式化
  • 2. 异步模块设计
    • 感知模块(Scene-based Perception Module)
    • 决策模块(Real-time Response Decision Module)
    • 反应模块(Asynchronous Interaction Module)
  • 3. 训练和推理
  • 4. 实验验证
  • 1. 实施细节(Implementation Details)
  • 2. 基准测试(Benchmarks)
    • StreamingBench
    • ETBench子集
    • 长视频QA基准测试
  • 3. 流视频理解(Streaming Video Understanding)
  • 4. 传统视频理解(Conventional Video Understanding)
  • 5. 消融研究(Ablation Study)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档