首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >AIGC 扩画面 vs ROI 裁剪:智能横转竖背后的两条技术路线

AIGC 扩画面 vs ROI 裁剪:智能横转竖背后的两条技术路线

原创
作者头像
gavin1024
发布2026-06-02 10:35:04
发布2026-06-02 10:35:04
20
举报

摘要

横屏视频要出现在抖音、小红书、视频号必须变9:16竖屏。裁还是补?本文拆解ROI智能裁剪与AIGC Outpainting扩画面的原理与成本,结合腾讯云媒体AI智能横转竖0.28元/分钟与高级版AIGC扩画面40元/分钟,给出资产再分发的决策框架。


一、为什么横转竖是刚需

内容平台画幅格局:

平台

主流画幅

场景

电视 / 长视频

16:9

影视剧、综艺、赛事

抖音 / Reels / Shorts

9:16

短视频分发

小红书 / Feed 流

3:4 / 1:1

种草、图文

横版信息流广告

16:9 / 4:3

开屏、贴片

一个 MCN 机构每天产出几百条 16:9 长视频,要覆盖全渠道就必须批量生产 9:16 / 1:1 / 3:4 版本。人工重剪不现实,智能横转竖因此成为媒体 AI 最高频的能力之一。


二、两条技术路线

路线 A:ROI 裁剪(Crop-based)

从 16:9 原图里出 9:16 区域,放弃画面两边。

路线 B:AIGC 扩画面(Outpainting-based)

保留原 16:9 完整画面,在上下补出新像素凑成 9:16。

示意:

代码语言:txt
复制
原画面 16:9
┌──────────────────────────┐
│   ROI 区(裁剪)         │
│    ┌─────────┐           │
│    │  主体   │           │
│    └─────────┘           │
└──────────────────────────┘

ROI 裁剪输出 9:16
┌─────────┐
│  主体   │
└─────────┘

AIGC 扩画面输出 9:16
┌──────────────┐
│  AI 补出背景 │
│┌──────────┐  │
││  原画面  │  │
│└──────────┘  │
│  AI 补出背景 │
└──────────────┘

两条路的"灵魂取向"不同:

  • 路线 A:"主体优先",宁愿少信息也要聚焦;
  • 路线 B:"信息优先",保留全部原画面,由 AI 补齐两端。

三、ROI 裁剪:技术链路拆解

3.1 主体检测

这是路线 A 的核心难题。需要回答"每一帧画面的视觉焦点在哪里"。常用信号:

信号

方法

权重场景

人脸 / 人体

RetinaFace / YOLO-Pose

访谈、演讲、剧情

显著性图

BASNet / U²-Net

广告、商品

运动热点

光流聚合

赛事、动作片

语义 ROI

OpenVocab 分割

专门类目

语音说话人

音画联动(Active Speaker Detection)

多人对话

3.2 时序平滑

每帧独立裁剪会导致抖动。解法:

代码语言:txt
复制
裁剪中心 c_t 用卡尔曼滤波或指数滑动平均:
c_t = α × raw_t + (1-α) × c_{t-1}

再加入 运动阻尼:当主体位移 < 5% 宽度时不动镜头,大于时做缓动。

3.3 镜头语言

专业摄像师的横转竖不是机械裁剪,而是带镜头语言:

  • 切镜头(Cut):场景变化时瞬移;
  • 推拉镜头(Zoom in/out):聚焦重点;
  • 横摇(Pan):跟随主体移动。

MAIS 智能横转竖(0.28 元/分钟) 在内部封装了多类镜头语言策略,依据视频类型(剧情/访谈/赛事)自动切换。

3.4 典型场景表现

场景

ROI 裁剪效果

单人讲座

✅ 完美,主体居中即可

多人对话

⚠️ 需配合 ASD,否则错主体

球赛

⚠️ 球小、变化快,需视情况放大

风景展示

❌ 裁掉的信息量太大,观感损失

文字特效

❌ 字幕/标题易被裁出画外


四、AIGC 扩画面:技术链路拆解

4.1 核心思想

用扩散模型(Diffusion)在原画面上下两端"生成"与现有画面自然衔接的新像素。本质是 Outpainting,但视频对"时序一致性"有额外要求。

4.2 技术栈

  1. 主体画面保持:原 16:9 区域像素完全保留;
  2. 背景分析:估计场景类别、色调、纹理、透视;
  3. DiT 条件生成:以原画面 + 文本描述 + 深度图为条件,在上下区域填充;
  4. 时序一致:跨帧共享潜变量、使用 3D 注意力避免闪烁;
  5. 色彩/光照融合:与原画面做色彩匹配。

4.3 为什么贵:40 元/分钟

对比 ROI 裁剪的 0.28 元/分钟,AIGC 扩画面贵 140 倍,原因:

  • 扩散模型推理步数多(20~50 步);
  • 潜空间仍需 3D Full Attention;
  • 时序一致性使得每段需较长 context;
  • 质控成本:扩散生成需多次采样取最优。

4.4 适用场景

场景

AIGC 扩画面收益

风景大片

✅ 延展天空、湖面自然

访谈类

✅ 补出背景书架、布景

球赛

⚠️ 补出看台合理,但运动主体不改变

广告

✅ 品牌视觉完整,避免裁掉 Logo

剧情

⚠️ 可能补出不存在的布景细节


五、两条路线的决策矩阵

维度

ROI 裁剪

AIGC 扩画面

单价

0.28 元/分钟

40 元/分钟

信息保留

部分丢失

完整保留

可能产生伪内容

不会

可能(扩充区域是 AI 生成)

动态场景适配

依赖主体检测

天然稳定

文字/字幕安全

可能被裁

完整保留

品牌 Logo 安全

可能被裁

完整保留

适合视频时长

长视频

中短视频(成本考虑)

经验法则

  • 长视频(> 10 分钟)、预算敏感 → 首选 ROI 裁剪;
  • 广告、精品短剧、品牌内容 → 优先 AIGC 扩画面;
  • 混合工作流:主内容用 ROI,Logo 区域/片头片尾用扩画面,综合成本最优。

六、工程化要点

6.1 字幕/标题的守护

无论选哪条路,字幕/标题必须 100% 保留。做法:

  • ROI 路线:OCR 提取字幕 → 作为"必须包含区域"参与裁剪规划;
  • 扩画面路线:字幕自带保留,但需避免被补出区域遮挡。

对接 MAIS OCR 提取(0.6 元/分钟) 即可完成字幕位置识别。

6.2 片头片尾处理

片头片尾常有完整品牌信息,不宜裁剪。建议:

  • 使用 MAIS 片头片尾识别(0.015 元/分钟) 检测边界;
  • 片头片尾自动切换至扩画面模式;
  • 主体内容使用 ROI 裁剪。

6.3 多版本并行生产

一条 10 分钟横屏视频,通常需要:

目标

方案

费用

9:16 抖音版

ROI 裁剪

2.8 元

1:1 小红书版

ROI 裁剪

2.8 元

品牌 9:16 精品广告

AIGC 扩画面

400 元


七、如何评估横转竖质量

指标

含义

目标

主体居中率

主体落在安全区的帧占比

95%

镜头抖动度

帧间中心位移方差

< 3% 帧宽

字幕/Logo 保留率

OCR 前后文字匹配率

100%

扩画面伪影率

人工抽检明显伪影占比

< 5%

情感一致性

配乐节奏与镜头切换对齐

主观评分 > 4/5

MAIS 在内部用上述指标对每一批量产视频做 QC,超阈值自动回流人工校对。


八、组合打法:一条视频的全链路

某汽车品牌发布会横屏视频(30 分钟),横转竖流水线:

  1. 大模型视频理解(1.5 元/分钟):识别关键时刻、品牌 Logo 出现时段;
  2. 精彩集锦(0.28 / 1.78 元/分钟):剪出 3~5 分钟精华;
  3. 智能横转竖(0.28 元/分钟):精华 9:16 裁剪;
  4. AIGC 扩画面(40 元/分钟):Logo 展示 30 秒做扩画面;
  5. AI 配音(0.5~9 元/分钟):补充解说;
  6. 字幕压制(0.063 元/分钟):烧入字幕;
  7. 智能审核(0.08 元/分钟):合规检测。

总成本:约 60~150 元即可产出多平台适配的成片,人力投入极低。


九、常见疑问

Q:AIGC 扩画面会不会把画面变形?

A:不会改变原画面像素,只在上下补充。但生成的内容会与原画面融合,色调可能微调。

Q:直播能用扩画面吗?

A:当前直播场景推荐用 ROI 裁剪,扩画面因扩散模型推理成本高更适合离线生产。

Q:能不能把扩画面蒸馏到 ROI 的价格?

A:研究进展很快(如 LCM、一致性模型),2026 年可能迎来 10 倍降价,但质量要求高的广告仍推荐使用原版。


十、开始横转竖自动化

产品入口:腾讯云媒体 AI(MAIS)

横转竖从来不是"省事",而是"懂事"。不同内容、不同平台、不同预算,选不同路线。MAIS 把两条路线都做成了按分钟付费的 API,你只需要决定"这条视频的灵魂是主体,还是构图"。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 摘要
  • 一、为什么横转竖是刚需
  • 二、两条技术路线
    • 路线 A:ROI 裁剪(Crop-based)
    • 路线 B:AIGC 扩画面(Outpainting-based)
  • 三、ROI 裁剪:技术链路拆解
    • 3.1 主体检测
    • 3.2 时序平滑
    • 3.3 镜头语言
    • 3.4 典型场景表现
  • 四、AIGC 扩画面:技术链路拆解
    • 4.1 核心思想
    • 4.2 技术栈
    • 4.3 为什么贵:40 元/分钟
    • 4.4 适用场景
  • 五、两条路线的决策矩阵
  • 六、工程化要点
    • 6.1 字幕/标题的守护
    • 6.2 片头片尾处理
    • 6.3 多版本并行生产
  • 七、如何评估横转竖质量
  • 八、组合打法:一条视频的全链路
  • 九、常见疑问
  • 十、开始横转竖自动化
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档