
横屏视频要出现在抖音、小红书、视频号必须变9:16竖屏。裁还是补?本文拆解ROI智能裁剪与AIGC Outpainting扩画面的原理与成本,结合腾讯云媒体AI智能横转竖0.28元/分钟与高级版AIGC扩画面40元/分钟,给出资产再分发的决策框架。
内容平台画幅格局:
平台 | 主流画幅 | 场景 |
|---|---|---|
电视 / 长视频 | 16:9 | 影视剧、综艺、赛事 |
抖音 / Reels / Shorts | 9:16 | 短视频分发 |
小红书 / Feed 流 | 3:4 / 1:1 | 种草、图文 |
横版信息流广告 | 16:9 / 4:3 | 开屏、贴片 |
一个 MCN 机构每天产出几百条 16:9 长视频,要覆盖全渠道就必须批量生产 9:16 / 1:1 / 3:4 版本。人工重剪不现实,智能横转竖因此成为媒体 AI 最高频的能力之一。
从 16:9 原图里裁出 9:16 区域,放弃画面两边。
保留原 16:9 完整画面,在上下补出新像素凑成 9:16。
示意:
原画面 16:9
┌──────────────────────────┐
│ ROI 区(裁剪) │
│ ┌─────────┐ │
│ │ 主体 │ │
│ └─────────┘ │
└──────────────────────────┘
ROI 裁剪输出 9:16
┌─────────┐
│ 主体 │
└─────────┘
AIGC 扩画面输出 9:16
┌──────────────┐
│ AI 补出背景 │
│┌──────────┐ │
││ 原画面 │ │
│└──────────┘ │
│ AI 补出背景 │
└──────────────┘两条路的"灵魂取向"不同:
这是路线 A 的核心难题。需要回答"每一帧画面的视觉焦点在哪里"。常用信号:
信号 | 方法 | 权重场景 |
|---|---|---|
人脸 / 人体 | RetinaFace / YOLO-Pose | 访谈、演讲、剧情 |
显著性图 | BASNet / U²-Net | 广告、商品 |
运动热点 | 光流聚合 | 赛事、动作片 |
语义 ROI | OpenVocab 分割 | 专门类目 |
语音说话人 | 音画联动(Active Speaker Detection) | 多人对话 |
每帧独立裁剪会导致抖动。解法:
裁剪中心 c_t 用卡尔曼滤波或指数滑动平均:
c_t = α × raw_t + (1-α) × c_{t-1}再加入 运动阻尼:当主体位移 < 5% 宽度时不动镜头,大于时做缓动。
专业摄像师的横转竖不是机械裁剪,而是带镜头语言:
MAIS 智能横转竖(0.28 元/分钟) 在内部封装了多类镜头语言策略,依据视频类型(剧情/访谈/赛事)自动切换。
场景 | ROI 裁剪效果 |
|---|---|
单人讲座 | ✅ 完美,主体居中即可 |
多人对话 | ⚠️ 需配合 ASD,否则错主体 |
球赛 | ⚠️ 球小、变化快,需视情况放大 |
风景展示 | ❌ 裁掉的信息量太大,观感损失 |
文字特效 | ❌ 字幕/标题易被裁出画外 |
用扩散模型(Diffusion)在原画面上下两端"生成"与现有画面自然衔接的新像素。本质是 Outpainting,但视频对"时序一致性"有额外要求。
对比 ROI 裁剪的 0.28 元/分钟,AIGC 扩画面贵 140 倍,原因:
场景 | AIGC 扩画面收益 |
|---|---|
风景大片 | ✅ 延展天空、湖面自然 |
访谈类 | ✅ 补出背景书架、布景 |
球赛 | ⚠️ 补出看台合理,但运动主体不改变 |
广告 | ✅ 品牌视觉完整,避免裁掉 Logo |
剧情 | ⚠️ 可能补出不存在的布景细节 |
维度 | ROI 裁剪 | AIGC 扩画面 |
|---|---|---|
单价 | 0.28 元/分钟 | 40 元/分钟 |
信息保留 | 部分丢失 | 完整保留 |
可能产生伪内容 | 不会 | 可能(扩充区域是 AI 生成) |
动态场景适配 | 依赖主体检测 | 天然稳定 |
文字/字幕安全 | 可能被裁 | 完整保留 |
品牌 Logo 安全 | 可能被裁 | 完整保留 |
适合视频时长 | 长视频 | 中短视频(成本考虑) |
经验法则:
无论选哪条路,字幕/标题必须 100% 保留。做法:
对接 MAIS OCR 提取(0.6 元/分钟) 即可完成字幕位置识别。
片头片尾常有完整品牌信息,不宜裁剪。建议:
一条 10 分钟横屏视频,通常需要:
目标 | 方案 | 费用 |
|---|---|---|
9:16 抖音版 | ROI 裁剪 | 2.8 元 |
1:1 小红书版 | ROI 裁剪 | 2.8 元 |
品牌 9:16 精品广告 | AIGC 扩画面 | 400 元 |
指标 | 含义 | 目标 |
|---|---|---|
主体居中率 | 主体落在安全区的帧占比 |
|
镜头抖动度 | 帧间中心位移方差 | < 3% 帧宽 |
字幕/Logo 保留率 | OCR 前后文字匹配率 | 100% |
扩画面伪影率 | 人工抽检明显伪影占比 | < 5% |
情感一致性 | 配乐节奏与镜头切换对齐 | 主观评分 > 4/5 |
MAIS 在内部用上述指标对每一批量产视频做 QC,超阈值自动回流人工校对。
某汽车品牌发布会横屏视频(30 分钟),横转竖流水线:
总成本:约 60~150 元即可产出多平台适配的成片,人力投入极低。
Q:AIGC 扩画面会不会把画面变形?
A:不会改变原画面像素,只在上下补充。但生成的内容会与原画面融合,色调可能微调。
Q:直播能用扩画面吗?
A:当前直播场景推荐用 ROI 裁剪,扩画面因扩散模型推理成本高更适合离线生产。
Q:能不能把扩画面蒸馏到 ROI 的价格?
A:研究进展很快(如 LCM、一致性模型),2026 年可能迎来 10 倍降价,但质量要求高的广告仍推荐使用原版。
产品入口:腾讯云媒体 AI(MAIS)
横转竖从来不是"省事",而是"懂事"。不同内容、不同平台、不同预算,选不同路线。MAIS 把两条路线都做成了按分钟付费的 API,你只需要决定"这条视频的灵魂是主体,还是构图"。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。