首页
学习
活动
专区
圈层
工具
发布
首页标签视频理解

#视频理解

多模态 AI 能力,全维度识别视频标签

基于 YOLOv8+DeepSORT 的高精准 AI 客流统计技术实现与优化

思通数科

基于AI视觉技术构建的客流统计系统,通过算法优化与软硬件协同,实现了客流数据的精准采集,提供了可靠的技术支撑。

20410

顶刊TPAMI|多模态视频理解领域重磅数据更新:MeViSv2发布

机器之心

近日,多模态视频理解领域迎来重磅更新!由复旦大学、上海财经大学、南洋理工大学联合打造的 MeViSv2 数据集正式发布,并已被顶刊 IEEE TPAMI 录用。

15210

AI计算机视觉在公共安全领域的应用:毫秒级跌倒预警技术全流程拆解

思通数科

针对人流密集公共场所的跌倒安全风险,先进的边缘AI视觉分析技术构建了从高危姿态识别到智能资源调度的闭环解决方案。

18510

实战分享:如何用开源AI系统,将监控视频转化为门店“销量地图”

思通数科

今天将分享一个完全开源的AI项目,它能帮你把现有的监控设备,升级为一个强大的门店运营分析工具。项目地址已文末附上,欢迎自行取用。

16510

破解长视频理解困局!MIT&英伟达最新开源StreamingVLM:统一实时流式视觉语言理解框架

AI生成未来

上述数据集可以微调模型的实时视频理解能力。然而,它包含大量关于球队信息和赛季历史的内容;对于解说任务的人类体验而言,我们更希望模型提供对场上事件的实时解说。因此...

32110

7B小模型竟超越72B巨头勇夺SOTA,北航、字节等联合发布长视频理解黑科技——DATE

AI生成未来

论文链接:https://arxiv.org/pdf/2509.09263 Git 链接:https://github.com/yuanc3/DATE

19910

2025年高级视频理解技术:从分类到深度内容分析

安全风信子

2025年,视频理解技术已经成为计算机视觉领域的重要研究方向和应用热点。随着深度学习技术的飞速发展和大规模视频数据集的支持,视频理解技术已经从简单的视频分类演进...

64410

校园社交异常智能监测方案:AI 守护系统,让 “边缘” 学生不再孤单

思通数科

在全球青少年社交退缩率高达20%的当下,校园中那些沉默独坐、回避互动的“边缘”学生,正被孤立感悄悄侵蚀。他们可能因抑郁、自闭、创伤或环境适应问题陷入社交困境,而...

22010

长视频理解与生成技术突破

用户11764306

在今年的计算机视觉与模式识别会议(CVPR)上,某中心视频团队展示了四篇论文,涵盖了我们在前沿问题研究上的广泛工作范围。

10810

工程监理多模态视觉大模型系统技术实现方案

思通数科

在建筑工程监理领域,传统监理方式面临文明施工监管实时性不足、基坑风险排查效率低、临时消防检查易漏检、项目经验共享难及行业标准落地受阻等痛点。为解决这些问题,工程...

33010

AI 视频检测:重构食品质检体系,破解大规模生产品质难题

思通数科

在食品生产从原料到成品的全链条中,食品安全与品质管控贯穿始终,但传统质检模式已难以适配现代食品行业大规模、高速化的生产节奏,诸多痛点成为品质提升与效率优化的阻碍...

53910

教你2025年最新视频1080P/4K/8K下载教程,附下载地址

程序员老彭

今天介绍的这款软件叫: MassTube ,是一款专门下载某管视频的软件,该软件完全免费,能直接下载某管的4K视频。

1.6K10

打破长视频理解瓶颈:HoPE混合位置编码提升VLM长度泛化能力

机器之心

如今的视觉语言模型 (VLM, Vision Language Models) 已经在视觉问答、图像描述等多模态任务上取得了卓越的表现。然而,它们在长视频理解和...

15000
领券