首页
学习
活动
专区
圈层
工具
发布

#视频

美国对国内两家大厂发动337调查

通信行业搬砖工

2026年3月30日到4月1日,48小时内,老美ITC对TCL和海信连发两起337调查。这是巧合吗?你往下看就知道了。337调查不是普通专利官司,它是老美关税法...

1700

字节、港中大、港大等最新开源力作:OmniShow,专用于人-物交互的端到端视频生成模型!

开源星探

在RA2V(参考图像+音频转视频)任务上,OmniShow的表现更加全面。除了TA和FaceSim指标略低于HuMo-17B外,其他指标包括NexusScore...

3510

阿里开源VRAG,图文视频跨模态检索生成框架,多模态RAG的下一代解决方案!

开源星探

在数字化时代,我们每天都在接触大量的视觉信息——从技术文档里的图表、学术论文里的插图,到社交媒体上的图片和视频。

3700

世界模型:不止是SeedDance 2.0的内核,更是AGI的核心基石

赛博解生

最近随着seeddance 2.0的出现,世界模型逐步走入大众的视野。当传统的大语言模型逐渐消耗完互联网的真实数据,性能走进瓶颈的时期,世界模型则作为一个核心概...

4910

鲁棒主成分分析新范式!鲁棒主成分补全(RPCC):一种NP难问题的通解?

Amusi

我们在彩色视频及高光谱图像上验证BCP-RPCC的前景提取能力。我们的模型的主要突破点在于对支撑集的直接估计,也即它是“硬分类器”,但主流的通用模型均只能给出的...

5210

眼不见,心不忘!华科&快手联手发布混合记忆新范式:攻克视频世界模型最致命缺陷

AI生成未来

论文链接:https://arxiv.org/pdf/2603.25716 项目链接:https://kj-chen666.github.io/Hybrid-M...

6110

“世界模型”到底是个啥?OpenWorldLib一锤定音:感知+交互+记忆,这才叫理解世界的AI!

AI生成未来

本工作提出了 OpenWorldLib 框架,其核心设计包含以下五个功能模块及一个调度中心:

13810

刚刚!VS Code 官宣:终于可以玩视频了!

GoLang学习记

微软这次没搞大新闻,而是把 Chat 体验打磨得更顺手了,进一步说就是:别让用户折腾,让 AI 好好干活。

7310

全网独一份!2025中国AI全藏宝图:16个神器曝光,第7个正在偷偷取代你!

大飞记Python

现在最火的是AI,应该没人会怀疑AI的含金量吧。但如今AI公司、模型遍地都是,还有AI智能体又是什么?

15910

AI漫剧、AI真人剧制作中,如何快速拆分场景宫格图?

90后小陈老师

我们生成了一张多宫格场景图,比如四宫格、九宫格,甚至更多拼图场景,但后续在做分镜、视频生成、素材整理时,往往需要把它们单独拆分成一张张独立图片。

11510

有字幕,没配音?用浏览器自带语音能力,让网页视频直接“开口说话”

桑榆肖物

网页里有视频,字幕也已经有了,而且还是中文字幕。内容本身没问题,阅读也没问题,但就是没有中文的配音。

12210

lmdeploy v0.12.3:视频输入、Qwen3.5、TurboMind 压缩张量、Ray 安全 API 等重大升级全面解析

福大大架构师每日一题

这意味着 LMDeploy 的多模态输入能力进一步扩展,不再局限于文本或静态图像,开始向视频类输入场景延伸。对于本地推理、视频理解、多模态交互等场景来说,这是非...

9210

SpringBoot 集成阿里云直播 + 点播全实战:推流、拉流、转码、回放一站式落地

果酱带你啃java

阿里云点播(ApsaraVideo VOD)是集音视频采集、编辑、上传、自动化转码处理、媒体资源管理、分发加速、视频播放于一体的一站式音视频点播解决方案,核心工...

15410

FFmpeg实战全解析:从底层原理到企业级应用落地

果酱带你啃java

FFmpeg作为音视频处理领域的"瑞士军刀",其架构设计遵循模块化思想,核心由解复用器(Demuxer)、解码器(Decoder)、编码器(Encoder)、复...

16810

Java 17 异步多线程视频上传实战

果酱带你啃java

在动手编码前,我们先理清核心技术的底层逻辑——知其然更知其所以然,才能灵活应对业务变化。

9810

腾讯云大模型助力中数联成构建中小企业AI营销智能体体系

gawain2048

腾讯科技(深圳)有限公司 | 市场研究 (已认证)

中数联成依托腾讯云及混元大模型,针对中小微企业数字化营销困境,构建了涵盖全链路技术底座、AI内容创作流水线、矩阵式运营与定制化IP的AI营销智能体体系。该方案已...

22620

谷歌Gemma 4遇上国产顶流:开源模型哪家强?

Henry Zhang

• Kimi K2.5 是“长视频专家”——能连续理解最长 10 小时的视频,通过时序感知模态融合层解决了帧间时序信息丢失的核心问题。它还有个“视频即代码”的绝...

31020

高速运营 | 以某高速举例,高速公路全场景应急处置预案的分级标准及响应流程

高速公路那点事儿

I级(重大): 封闭半幅路面以上,或对车辆高宽长轴载有限制且作业超1小时,影响行车。自动推送预案,视频投屏确认,发布情报板及雨棚屏限流信息,显示机电、养护、交警...

13310

基于大模型、SKills 的知识管理

Ai学习的老章

但作为一个每周要输出 3-5 篇技术文章、配套口播视频、社交媒体内容的人,我需要的不只是"积累"和"查询",我需要把知识变成内容产品推出去。

19920

让AI更懂每一帧,安谋科技发布新一代VPU IP产品

ExASIC

近日,国内领先的芯片IP设计与服务提供商安谋科技(中国)有限公司在上海举办开年技术盛会《玲珑·视界》,正式发布面向AI全场景应用的新一代VPU IP产品——“玲...

12810
领券