首页
学习
活动
专区
圈层
工具
发布

#视频

NeurIPS 2025 Spotlight | 中国联通以全局优化重塑扩散模型加速

机器之心

当前,视频生成模型性能正在快速提升,尤其是基于Transformer架构的DiT模型,在视频生成领域的表现已经逐渐接近真实拍摄效果。然而,这些扩散模型也面临一个...

5310

超越 VTM-RA!快手双向智能视频编码器BRHVC亮相NeurIPS2025

机器之心

对此,视频编码通过消除时空冗余、量化视觉不敏感信息,将视频码率压缩至 1/100~1/1000,使短视频、直播、视频会议、云游戏等应用成为可能。从经济角度看,视...

4510

分割一切并不够,还要3D重建一切,SAM 3D来了

机器之心

深夜,Meta 有了重大更新,接连上线 SAM 3D、SAM 3(Segment Anything Model,SAM)。

5610

视觉-语言-动作三模态融合新突破:villa-X让机器人像人一样“看懂就会做”

一点人工一点智能

导读:视觉-语言-动作(Vision-Language-Action, VLA)模型已成为机器人操作策略学习中的重要范式,能够根据语言指令执行任务并泛化至新场景...

6710

视频生成Prompt何须仅是文字!字节&港中文发布Video-As-Prompt

机器之心

本工作由第一作者在字节跳动智创北美团队实习期间完成。第一作者卞宇轩目前为香港中文大学计算机科学与工程系博士二年级学生,研究方向为可控视频生成,师从徐强教授,并曾...

6110

李飞飞的创业公司放大招:只要一个 H100 就能跑世界模型

深度学习与Python

相比视频生成模型,世界模型不仅生成图像或视频,还能够理解和预测环境的动态,支持智能体做出决策。

5310

Gemini 3 预热了这么长时间终于发布了

扶墙老师

Gemini 3 的发布可能太重量级了 (https://blog.google/products/gemini/gemini-3) , 把cloudflare...

11710

论 视觉大模型(VLLM)在实时视频流分析中的应用

JanYork_简昀

在过去十年中,视频理解技术经历了从离线分析、单点识别,到实时检测、多任务协同,再到大模型驱动的视频智能体(Video AI Agents)的快速演进。随着算力成...

34710

怎么用上Gemini 3 pro? 附提示词

疯狂的KK

11 月 18 日,Google 正式发布了 Gemini 系列的最新旗舰模型——Gemini 3.0(首发版本为 Gemini 3 Pro)。这不仅仅是...

57140

每周AI论文速递(251110-251114)

叶子的技术碎碎念

我们推出Lumine,这是首个用于开发通用AI智能体的开放方案,能够在挑战性3D开放世界环境中实时完成长达数小时的复杂任务。Lumine采用类人交互范式,以视觉...

11210

每周AI论文速递(251006-251010)

叶子的技术碎碎念

分层推理模型 (HRM) 是一种创新方法,它采用两个小型神经网络,以不同的递归频率运行。这种受生物学启发的技术,在数独、迷宫和 ARC-AGI 等复杂谜题任务中...

12010

Gemini 3实测:综合最强、代码最强、数学最强、多模态最强的六边形 AI 来了?

腾讯云开发者

由于多模态能力明显提升,它可以辅助你判定视频中的内容并进行解析。比如可以对匹克球比赛视频进行技术分析,识别技术动作中的可优化环节,并据此制定系统性的动作改进训练...

7.2K50

读懂5G新通话:可能是AI落地千行万业的首个全民级场景

Alter聊科技

其中最重要的创新,无疑是DC通道——在VoNR音视频通道的基础上,建立了一个新的数据通道,可以传送图片、音频、视频、文件、网页、菜单、表情、位置、涂鸦、AR/V...

13010

Claude Code 学习最佳实践:NotebookLM 生成全套学习视频+卡片+测试题

AI进修生

“ 他将36篇Claude Code相关内容“喂”给NotebookLM AI,生成了一套包含视频和音频的深度学习资料库 ?。整个过程耗时80分钟,浏览了440...

11110

Veo3.1 发布 ,附Gemini Pro免费使用教程。

AI进修生

你需要在flow中使用这个“extend” 的按钮,没升级之前,延长是没有音频的。只能使用veo2延长。

47310

越来越感觉 Agent 是未来的方向了

Ai学习的老章

方法:论文提出V-Stylist多智能体系统做文本引导视频风格化:Video Parser拆视频、生提示,Style Parser搜匹配风格模型,Style A...

10310

基于FFmpeg的直播视频录制工具StreamCap

aqi00

随着推拉流技术的发展,现在网络直播应用很普及了,打开许多App都能看到各式各样的直播节目,包括抖音、快手、虎牙、斗鱼、B站、小红书、YY、映客等等。

12610

交通气象 | 某规划院关于精细化气象监测与预警系统的设计思路,有些不错的点子

高速公路那点事儿

通过高清视频摄像机视频信号,实现高速公路上基于视频的能见度检测,实现雾多发区域能见度发展趋势实时、无缝监测,作为气象监测站的有效补充。

10410

数字治超 | 超限运输车辆行驶公路管理系统的组成与功能解析

高速公路那点事儿

超限运输车辆行驶公路管理系统(以下简称“治超系统”)是用于对行驶在公路上的货运车辆进行引导、检测、识别、判定,并对违法行为进行查处和纠正的综合管理系统。

15010

智元发布LinkCraft,针对人形机器人的“剪映”APP

点云PCL博主

AgiBot 发布了 LinkCraft,这是全球首个零代码、无障碍的机器人内容创作平台。LinkCraft 无缝融合了 AI 动作捕捉、云端模仿学习和多模态编...

7910
领券