首页
学习
活动
专区
工具
TVP
发布
精选内容/技术社群/优惠产品,尽在小程序
立即前往
首页标签视频理解

#视频理解

多模态 AI 能力,全维度识别视频标签

英伟达 & MIT 提出 LongVILA ,从 8 帧到 1024 帧 如何实现长视频理解的飞跃 ?

AIGC 先锋科技

将多个模态理解的集成与长序列能力的集成非常重要。支持更多模态的基础模型可以接受更灵活的输入信号,使人们可以以更多样化的方式与模型进行交互,例如类似 GPT-40...

14110

【机器学习】FFmpeg+Whisper:二阶段法视频理解(video-to-text)大模型实战

LDG_AGI

上一篇对Whisper原理和实战进行了讲解,第7次拿到了热榜第一🏆。今天,我们在Whisper的基础上,引入ffmpeg工具对视频的音频进行抽取,再使用Whis...

7810

五大免费在线AI视频换脸工具推荐

用户10277315

你有没有梦想过成为电影明星?或者想制作一些搞笑的恶作剧视频来娱乐朋友?通过免费的在线AI换脸视频工具,这些愿望都可以实现!AI换脸技术,也被称为Deepfake...

56310

【源头活水】Mamba成功杀入ECCV 2024!VideoMamba:高效视频理解的状态空间模型

马上科普尚尚

“问渠那得清如许,为有源头活水来”,通过前沿领域知识的学习,从其他研究领域得到启发,对研究问题的本质有更清晰的认识和理解,是自我提高的不竭源泉。为此,我们特别精...

15010

ShareGPT4V作者团队又一力作!百万高质量视频-字幕数据助力社区提升多模态大模型视频理解及生成能力

机器之心

研究者们认为闭源模型对于视频理解和视频生成领域的巨大领先同样离不开详细高质量的视频-字幕数据。因此,该研究团队再次致力于为视频获取大量详细而精确的字幕,提升大型...

12310

考考大模型视频理解能力,中科院人大百川提出新基准合成框架

量子位

通过这些设计,VNBench能够全面地评估视频理解模型在多样化的视频内容和查询条件下的性能,为视频理解技术的研究提供了一个有力的基准测试工具。

10710

最强GPT-4o也才刚及格?智源联合多所高校推出首个多任务长视频评测基准MLVU

CV君

当前,研究社区亟需全面可靠的长视频理解评估基准,以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。

9510

【他山之石】CVPR2024-MA-LMM: 内存增强的大型多模态模型,用于长期视频理解

马上科普尚尚

随着大型语言模型(LLMs)的成功,将视觉模型整合到LLMs中以构建视觉-语言基础模型近来引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Vid...

13410

AI视频理解天花板,全新MiniGPT4-Video刷爆SOTA!宝格丽宣传片配文一绝

新智元

最近,来自KAUST和哈佛大学的研究人员提出了MiniGPT4-Video——专为视频理解而设计的多模态大模型。

11710

首个开源世界模型!百万级上下文,长视频理解吊打GPT-4,UC伯克利华人一作

新智元

【新智元导读】来自UC berkeley的研究人员开源了首个世界模型,多模态性能优秀,长视频理解吊打GPT-4,同时将上下文长度增加到百万级别

14310

还得是抖音,字节推出竖屏视频理解数据集,入选CVPR2024

机器之心

针对这一不同,字节跳动技术团队发布了专注于竖屏视频理解的数据集,提出了多个针对竖屏视频处理的技术点以及一个初始方案。这项研究对准确的竖屏视频理解和基础技术架构有...

15810

CNN、Transformer、Uniformer之外,我们终于有了更高效的视频理解技术

机器之心

视频理解的核心目标在于对时空表示的把握,这存在两个巨大挑战:短视频片段存在大量时空冗余和复杂的时空依赖关系。尽管曾经占主导地位的三维卷积神经网络 (CNN) 和...

13410

用AI短视频「反哺」长视频理解,腾讯MovieLLM框架瞄准电影级连续帧生成

机器之心

通过在 LLaMA-VID 这一专注于长视频理解的大模型上应用基于 MovieLLM 构造的数据进行微调,本文显著增强了模型处理各种长度视频内容的理解能力。而针...

17710

针对压缩视频理解的编码框架

用户1324186

上海交通大学 · 研究员 (已认证)

视频编码算法有很多,如广泛应用的H.264、H.265,但是它们都是为了更好地保证重建视频有着更高的质量,并且编码的质量指标(PSNR、SSIM)都是为了保证人...

42130

MPD格式VS M3U8格式:哪种更适合移动端的流媒体播放?

用户10755593

随着移动设备用户数量的不断增加,流媒体播放在移动设备上的需求也越来越高。然而,移动设备上使用的流媒体播放器支持的格式有限,其中MPD格式和M3U8格式是两种常用...

2.2K01

在 FPGA 上通过 2D CNN 进行高效视频理解的 TSM 网络

碎碎思

在这个项目中,展示了 Temporal-Shift-Module ( https://hanlab.mit.edu/projects/tsm/)在 FPGA 上...

32430

一种在终端设备上用量化和张量压缩的紧凑而精确的视频理解

计算机视觉研究院

由于在视频检测和分类中暴露于高维输入时需要大量参数,因此在终端设备上开发紧凑但准确的视频理解是一个巨大的挑战。

13420

视频如何去掉水印?分享3种视频去水印方法

用户9308944

不知道你有没有遇到这种情况,自己拍摄的视频素材进行剪辑后发布到了平台之后,就会把原本拍摄的视频素材删掉,以免占内存,当之后想起来有些素材时可以重复被利用的,便想...

2.6K50

困在流量池的视频博主们

腾讯云TI平台

以下文章来源于腾讯云AI ,作者Jerry 想做视频博主的你是不是总会被作品流量所困扰? 精心策划的内容观看量总是很低,明明都用上了专业的拍摄、录音设备...

74920
领券