首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签视频理解

#视频理解

多模态 AI 能力,全维度识别视频标签

【他山之石】CVPR2024-MA-LMM: 内存增强的大型多模态模型,用于长期视频理解

马上科普尚尚

随着大型语言模型(LLMs)的成功,将视觉模型整合到LLMs中以构建视觉-语言基础模型近来引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Vid...

7410

AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝

新智元

最近,来自KAUST和哈佛大学的研究人员提出了MiniGPT4-Video——专为视频理解而设计的多模态大模型。

9310

首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作

新智元

【新智元导读】来自UC berkeley的研究人员开源了首个世界模型,多模态性能优秀,长视频理解吊打GPT-4,同时将上下文长度增加到百万级别

10110

还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

机器之心

针对这一不同,字节跳动技术团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有...

11610

CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术

机器之心

视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN) 和...

7510

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

机器之心

通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调,本文显著增强了模型处理各种长度视频内容的理解能力。而针...

10210

针对压缩视频理解的编码框架

用户1324186

上海交通大学 · 研究员 (已认证)

视频编码算法有很多,如广泛应用的H.264、H.265,但是它们都是为了更好地保证重建视频有着更高的质量,并且编码的质量指标(PSNR、SSIM)都是为了保证人...

33630

MPD格式VS M3U8格式:哪种更适合移动端的流媒体播放?

用户10755593

随着移动设备用户数量的不断增加,流媒体播放在移动设备上的需求也越来越高。然而,移动设备上使用的流媒体播放器支持的格式有限,其中MPD格式和M3U8格式是两种常用...

1.2K00

在 FPGA 上通过 2D CNN 进行高效视频理解的 TSM 网络

碎碎思

在这个项目中,展示了 Temporal-Shift-Module ( https://hanlab.mit.edu/projects/tsm/)在 FPGA 上...

25430

一种在终端设备上用量化和张量压缩的紧凑而精确的视频理解

计算机视觉研究院

由于在视频检测和分类中暴露于高维输入时需要大量参数,因此在终端设备上开发紧凑但准确的视频理解是一个巨大的挑战。

11420

视频如何去掉水印?分享3种视频去水印方法

用户9308944

不知道你有没有遇到这种情况,自己拍摄的视频素材进行剪辑后发布到了平台之后,就会把原本拍摄的视频素材删掉,以免占内存,当之后想起来有些素材时可以重复被利用的,便想...

2.5K50

困在流量池的视频博主们

腾讯云TI平台

以下文章来源于腾讯云AI ,作者Jerry 想做视频博主的你是不是总会被作品流量所困扰? 精心策划的内容观看量总是很低,明明都用上了专业的拍摄、录音设备...

71920

困在流量池的视频博主们

腾讯云AI

想做视频博主的你是不是总会被作品流量所困扰? 精心策划的内容观看量总是很低,明明都用上了专业的拍摄、录音设备,反复修改了脚本文案,发出去后却没太大水花。 但是其...

39730
领券