IBC 2023 | 最新人工智能/深度学习模型趋势在超分辨率视频增强中的技术概述

用户1324186

发布于 2024-03-20 14:25:42

4310

题目：Technical Overview of Recent AI/DL Model Trends for Super-Resolution Video Enhancement 作者：Nelson Francisco, Julien Le Tanou 链接：https://www.ibc.org/technical-papers/ibc2023-tech-papers-technical-overview-of-recent-ai/dl-model-trends-for-super-resolution-video-enhancement/10284.article 内容整理：王妍这篇技术论文全面概述了最先进的基于深度学习的超分辨率方法及其各自的优点和缺点，重点介绍了如何针对云中的实际部署进行定制，以减轻其典型的局限性。

引言

超分辨率（SR）方法指的是从低分辨率输入生成高分辨率图像或视频的过程。这些技术几十年来一直是研究的重要课题，早期的 SR 方法依赖于空间插值技术。虽然这些方法简单且有效，但上转换图像的质量受到其无法生成高频细节的能力的限制。随着时间的推移，引入了更复杂的方法，包括统计、基于预测、基于块或基于边缘的方法。然而，最显著的进步是由新兴的深度学习技术，特别是卷积神经网络（CNNs）带来的。尽管卷积神经网络（CNNs）自 20 世纪 80 年代以来就存在，但直到 20 世纪 90 年代中期，由于缺乏适合训练和运行大型网络的硬件，它们才开始在研究社区中获得广泛关注。

CNNs 自那以后经历了无数次改进，并成为图像分析和处理任务中最强大和广泛使用的深度学习技术之一。近年来，CNNs 在从图像分类、目标检测或语义分割等任务中取得了最先进的性能。

第一个基于卷积神经网络（CNN）的超分辨率方法是通常归功于 Dong 等人，他们在 2015 年的论文“使用深度卷积网络的图像超分辨率”中提出了“SRCNN”（超分辨率卷积神经网络）。作者开发了一个三层 CNN 架构，能够通过使用大型训练数据集学习从低分辨率到高分辨率图像的映射。随后出现了许多基于 CNN 的超分辨率方法，每种方法在数据映射、网络架构和大小、优化函数或计算效率等方面都有所改进，其中许多方法在多年的各种基准数据集上取得了最先进的性能。

另一个关键的发展是残差网络的引入。在传统的深度神经网络中，随着层数的增加，梯度在训练过程中通过网络反向传播时变得越来越弱。其中一些梯度可能会消失或爆炸，导致不稳定或阻止学习过程收敛。这使得训练非常深的网络变得越来越具有挑战性。ResNet 架构通过引入残差连接的概念来解决这个问题，其中某些层的输出可以绕过其他层直接添加到后续层的输入。这使得网络能够学习残差映射而不是完整映射，从而可能训练出通常可以达到数百层的更深层次的网络。这使得 ResNet 架构在包括超分辨率在内的许多计算机视觉任务中变得非常流行。

在这些创新的基础上，随着硬件能力的提高，训练和运行更大、更复杂的网络，超分辨率领域在过去几年里发展得非常快。自动编码器和生成对抗网络(GAN)等生成模型的进步开辟了新的可能性，即使在输入数据有噪声或不完整的情况下，也能提供与高分辨率图像的底层分布相匹配的高质量升级。变压器模型和扩散等新趋势仍在进一步推动可实现的边界。

然而，每种网络体系结构都有自己的优点和缺点，因此为其目标应用程序定制每种解决方案变得非常重要，特别是因为计算复杂性和性能之间的平衡通常是实际系统设计中最重要的约束。

深度学习超分辨率方法

虽然单图像超分辨率（SISR）算法的输入和输出都是单个图像，视频超分辨率（VSR）算法必须从多个低分辨率帧输入生成多个高分辨率帧。对于 VSR 的一个简单方法是对每个输入帧应用 SISR 算法，但这种方法通常会引入闪烁或抖动等伪影，因为每个输出帧生成的细节不一致。VSR 方法需要保持时间一致性以最大化感知质量，这通常通过使用多个低分辨率输入帧来生成每个上转换帧的视频来实现。输入帧的特征对齐通常通过运动补偿、光流或其他类似方法实现，这使得算法在计算上比等效的 SISR 算法更复杂。

尽管存在这种根本性差异，SISR 和 VSR 共享相似的网络架构，算法仍然属于相同的类别。出于简单性的考虑，我们将重点关注 SISR 算法的分析，但可以为 VSR 解决方案推断出每类算法的相对优点和缺点。

PSNR 导向方法

图 1

PSNR 导向方法通过基于简单分布假设的损失进行训练，能够实现出色的峰值信噪比（PSNR），但通常导致图像平滑且缺乏细节。在训练过程中，高分辨率图像的块被下采样并用作超分辨率生成网络的输入，然后将它们放大回原始分辨率。原始图像被用作真实值，以便计算原始和放大块之间的损失。网络系数通过反向传播损失函数梯度来训练，以最小化超分辨率放大和原始之间的误差。

然而，问题的不良性质意味着在将低分辨率映射到高分辨率块时可能存在多种解决方案，而最小化重建损失倾向于支持平均所有合理高分辨率解决方案的预测，导致高频细节的显著减少。

图 2

一个合成的例子如图 2 所示，低分辨率输入可以映射到 4 个可能的高分辨率面孔中的任何一个，这些面孔都非常相似且同样可信，可能呈现相同的均方误差（MSE），但具有略微不同的特征（如细节裁剪所示）。假设网络呈现 LR 图像，并且所有 4 个 HR 图像都是问题的正确答案，网络将倾向于产生一个放大输出，该输出来自所有可能面孔的平均值，因为如果所有 4 个面孔随机呈现给网络，这将在平均情况下最小化与真实值的损失。这导致特征混合和随后平滑的重建，这不一定是我们为了最大化上采样图像的感知质量而希望实现的。在实际应用场景中，原始高分辨率图像甚至不会存在以供比较，因此生成的细节只需要看起来可信且一致，以便观众认为超分辨率图像质量高。

生成对抗网络

图 3

生成对抗网络（GANs）最初由 Goodfellow 在 2014 年提出，后来成功用于超分辨率应用。GANs 试图通过用一个互补的卷积神经网络（CNN）替换简单的损失函数来解决 PSNR 基础方法的过度平滑问题，该 CNN 被训练用于评估放大图像的可信度。为此，鉴别器交替地呈现原始真实图像和来自生成器的放大块，学习确定给定高分辨率块是原始的还是合成的。

通过同时训练两个网络，它们相互促进成功：当鉴别器变得更擅长区分原始和合成高分辨率块时，生成器必须变得更擅长生成更可信的高分辨率放大图像以成功欺骗鉴别器。类似地，生成器在创建合成高分辨率图像方面变得越好，鉴别器就必须变得更准确，以区分它们与真实高分辨率图像。GANs 在放大图像的感知质量上提供了显著的提升，生成了更锐利的图片和更丰富的高频细节，但它们在设计和训练方面带来了一些额外的挑战。首先，它们本质上更计算昂贵，并且在训练时需要更大的内存占用，因为需要同时训练两个神经网络。然而，由于在推理过程中不使用鉴别器，这个问题在实际应用中得到了缓解。其次，与优化生成器以最小化一个明确定义的度量（损失函数）不同，GAN 的优化函数随着鉴别器逐步学习而变化。这使得 GANs 容易受到模式崩溃的影响，即生成器“崩溃”到只产生目标分布的一个子集，而不是整个分布。

导致模式崩溃的因素有几个，例如鉴别器相对于生成器过于强大，或者对于应用来说不够准确。虽然在第一种情况下，生成器在努力产生能够欺骗鉴别器的多样化样本时会陷入局部最小值（如果训练数据太有限，以至于生成器无法学习数据的完整分布，这种情况也可能发生），但在第二种情况下，生成器无法产生多样化、高质量的输出，因为它每次都能欺骗鉴别器相信一个块是真实的，这意味着它没有进一步改进或多样化其输出的动力。如果两个网络的学习率没有适当平衡，其中一个网络比另一个网络更快地收敛，模式崩溃也很可能发生。

研究人员已经开发了各种技术，通过仔细选择训练数据和调整学习率来减少模式崩溃的可能性。这些技术包括修改损失函数，调整生成器和鉴别器的架构，以及向模型添加正则化项。图 4 展示了一个例子，其中简单损失与鉴别器网络的加权组合有助于提供 GAN 方法的好处，同时减轻一些风险。

图 4

混合方法还有助于控制模式幻觉，并避免产生高分辨率的放大，尽管令人信服，但可能与输入不完全相关。在 GAN 生成的高尺度图像中观察直方图位移影响客观指标的情况并不罕见，可以通过添加简单的损失项来降低其可能性。仔细设计和优化网络体系结构以及添加剩余层也可能有助于缓解这个问题。

Transformer 模型

Transformer 模型是一种神经网络架构，最初是为自然语言处理（NLP）任务开发的，但此后也成功应用于其他类型的序列数据，如图像、视频和音频信号。Transformer 模型的主要构建块是自注意力机制和多层前馈网络。

在典型的 Transformer 中，输入数据首先被嵌入到一系列向量中，然后由相同层的堆栈处理。每一层由两种子层组成：自注意力机制和多层前馈网络。自注意力机制允许模型通过在不同粒度级别关注序列的不同部分来学习输入序列的全局表示。在序列的每个位置，自注意力机制计算序列中其他位置的加权和，其中权重由学习到的注意力函数确定。然后使用这个加权和来计算当前位置的新表示，该表示传递到下一层。多层前馈网络对序列中每个位置的自注意力输出应用非线性变换，这有助于模型捕获序列不同部分之间更复杂的关系。前馈网络的输出然后通过残差连接和层归一化操作，然后传递到下一层。在输入序列经过 Transformer 层堆栈处理后，最终输出通过线性层生成模型对当前任务的预测。

为了处理图像数据，对 Transformer 模型进行了一些调整。通常，图像首先通过卷积神经网络（CNN）处理，以提取代表低级视觉特征的一组特征图。然后将特征图分割成不重叠的块，这些块被展平并映射到连续向量，然后与学习到的位置嵌入组合，由多头自注意力机制处理。

学习到的嵌入和自注意力机制有效地将图像数据映射到潜在空间，由于优化是在该域中进行的，Transformer 可以缓解与问题不良性质相关的一些问题，这意味着输出不太可能受到 PSNR 方法平滑性的影响。由于优化依赖于单一损失，Transformer 模型不会受到模式崩溃的影响，比 GANs 更容易收敛。然而，它们通常相对较大，需要大量的计算和内存资源来运行。

图 5

J. Liang 等人提出了将流行的 Swin Transformer 架构适应于一个名为 SwinIR 的通用视频恢复算法。Swin 是 Transformer 的一个变体，它使用分层特征表示和移动窗口来捕获空间信息。尽管 SwinIR 在多个图像恢复任务上表现良好，但在用于超分辨率时，它倾向于生成平滑且缺乏真实感的图像。

Q. Cai 等人提出了使用具有分层块的 Transformer， M. Conde 等人提出了使用 SwinV2 Transformer，这是原始 Swin Transformer 的更新版本，它包含了几项创新和改进。这些包括跨窗口聚合，允许更大的上下文建模，归一化层中的残差连接提高了训练期间的稳定性，多尺度注意力在多个尺度上聚合特征以捕获局部和全局信息，逐层缩放以平衡每层对最终输出的贡献并防止梯度爆炸或消失，以及在 stem 层中使用深度可分离卷积以减少参数数量并提高推理过程的速度。总的来说，这使得 Swin2R 在与原始 SwinIR 相比时能够生成更可信的超分辨率图像，但总体而言，该算法在与其他技术相比时仍然倾向于过度平滑。

总的来说，Transformer 架构的连续改进使这些方法在超分辨率应用中取得了有竞争力的结果，但代价是相对较高的训练和推理成本。

流模型

尽管其他方法试图学习低分辨率和高分辨率对之间的确定性映射，基于流的方法直接考虑到任何给定的低分辨率图像实际上可以有效地映射到无限多的兼容高分辨率图像。这些方法旨在捕捉自然高分辨率图像的完整分布，这些图像条件化于它们对应的低分辨率对应物。

使用一个可逆神经网络，将高分辨率-低分辨率图像对映射到一个潜在变量，用于参数化条件分布函数，潜在变量和数据之间的双射意味着任何给定的高分辨率图像总是可以从潜在空间精确重建。这允许在大量高分辨率和低分辨率对的数据集上使用单个负对数似然损失来训练神经网络。

使用单一损失函数允许基于流的方法避免模式崩溃和其他训练不稳定性，但由于保持潜变量与数据之间的双射所需的强大架构约束，这导致了极大的模型占用空间和高昂的训练成本。

总的来说，流模型在图像锐度、客观误差指标和感知伪影水平之间提供了最平衡的结果，但代价是复杂性和内存要求，这可能使它们不适合许多应用。

扩散模型

扩散概率模型是另一种适用于像超分辨率这样的一对多解决方案问题的生成模型。然后，它们成功地用于超分辨率，以及其他应用，如语音和图像合成。

扩散概率模型依赖于使用马尔可夫链将数据

x_0

转换为具有简单分布（如高斯分布）的潜在变量

x_T

，通过逐步添加噪声 ε 进行扩散过程，然后预测每个扩散步骤中的噪声 ε 以通过学习到的逆过程恢复数据

x_0

。

图 6

在扩散模型中有两个阶段：前向扩散阶段，图像通过逐步引入噪声直到变成完全随机噪声而受到损坏（图 6 中的左到右），以及逆过程，其中一系列马尔可夫链被用来通过逐步去除每个时间步预测的噪声从高斯噪声中恢复数据，从而生成高分辨率图像或添加到放大图像中的高频细节。在这个过程中，低分辨率图像被转换到一个更高维的空间，在这个空间中更容易恢复精细的细节，使用一个学习到的函数将低分辨率输入映射到更高维空间。

一旦输入进入更高维空间，就应用扩散过程在维度之间传播信息。这个过程可以看作是一个随机漫步，其中低分辨率图像中的每个像素对应一个粒子，这些粒子在高维空间中移动，受到邻近粒子的影响。随着粒子的移动，它们交换信息，允许恢复精细的细节。

扩散过程完成后，通过将粒子映射回原始图像空间来生成高分辨率图像。这是通过一个学习到的函数实现的，该函数将高维表示映射到高分辨率输出。

扩散超分辨率模型通常使用低分辨率和高分辨率图像对进行训练，目标是学习准确地从低分辨率输入中恢复精细细节，通过使用惩罚生成的 SR 图像和真实 HR 图像之间差异的损失函数。通过优化变分下界的一种变体，扩散概率模型也避免了 GANs 遇到的模式崩溃问题。

扩散模型可以通过依赖于通常比流或 Transformer 模型更小的模型来实现超分辨率应用的最新结果，这些模型通常更便宜。然而，它们的迭代性质意味着需要多次推理传递来生成每个输出图像，导致相对较高的推理成本。这使得扩散模型特别适合于内存资源有限但推理时间不关键的应用，但可能会阻止其在推理时间有严格限制的应用中的适用性。扩散模型的迭代性质还具有可扩展性的好处，因为可以在有限资源可用时运行较少的迭代并接受较低的质量，当资源变得可用时增加迭代次数以提高质量。

方法比较

为了比较前一节讨论的不同超分辨率架构在质量和计算复杂性方面的相对性能，我们使用每个算法类别的代表性方法对相同的图像集进行了上转换。我们使用了 DIV2K 数据集，这是一个公开可用的数据集，包含 900 张高分辨率 RGB 图像，内容多样性大。DIV2K 数据集分为训练子集（800 张图像）和验证子集（100 张图像），由于训练子集已被大多数作者用于训练他们的模型，因此仅使用了 100 张验证图像进行此评估。

尽管超出了视频交付（如 SD 到 HD 或 HD 到 4K）最典型应用的要求，我们使用了 4 倍的水平和垂直方向的放大因子，以强调各种方法之间的差异，并突出它们最常引入的伪影。

我们通过使用双三次核对 DIV2K 验证集中的每张原始高分辨率图像进行下采样，生成了低分辨率（LR）图像。然后，使用分析中的每种方法将这些 LR 图像放大到超分辨率（SR）图像，以便计算原始真实值（HR）和放大（SR）图像之间的质量指标。除了广泛使用的 PSNR 和 SSIM，我们还计算了 LPIPS，这是一种基于深度学习的图像质量评估指标，计算真实值和 SR 图像之间的感知相似性，并且非常有效地评估上转换过程中引入的高频细节量。为了进一步评估 SR 和 LR 图像之间的一致性和相关性，我们还包括了 LR-PSNR 值，计算为下采样 SR 图像和输入 LR 图像之间的 PSNR。

作为比较的参考，我们使用了双三次上采样插值，并采用了 RRDB 作为 PSNR 导向方法的代表。RRDB 使用了与 ESRGAN 相同的生成器网络，后者被用来说明 GAN 方法的性能。这两种方法的唯一区别在于，前者使用简单的 L1 损失进行训练，而后者将简单损失与鉴别器网络的结果结合起来，计算对抗损失。这允许我们直接评估 GAN 架构的好处，通过比较两个相同的神经网络，一个带有对抗网络，一个不带对抗网络。Swin2R 被用来代表 Transformer 方法，SRFLOW 用来说明基于流的模型的性能，SRDIFF 用来代表扩散超分辨率模型，据我们所知，Google 的 SR3 没有完整的开源实现。对于所有方法，我们都使用了作者在他们的原始论文中提出的默认架构，以及他们提供的预训练模型。我们使用了配备 12Gb VRAM 的 Nvidia RTX3080Ti GPU 进行推理，结果总结在表 1 中。

表 1

在比较 RRDB 与双三次插值时，可以观察到每个指标都一致地得到改善（除了 LPIPS，其中较低的值更好），清楚地展示了基于深度学习的方法相对于插值方法的优越性。SWIN2R 在 RRDB 的基础上进一步提高了所有测量的质量指标，但代价是更高的计算复杂性。

图 7

然而，在特别分析 LPIPS 得分时，可以观察到尽管 RRDB 和 SWIN2R 的性能明显优于双三次插值，但它们仍然远远落后于其他方法。这与图 7 中展示的示例直接相关，使用这两种方法放大的图像比使用 ESRGAN、SRFLOW 和 SRDIFF 放大的图像明显更柔和。

ESRGAN 在所有比较方法中实现了最佳的 LPIPS，表明其放大的图像在高频细节上更丰富。这再次与图7中的观察结果一致，展示了 LPIPS 评估超分辨率算法质量的有效性，特别是引入的放大图像的细节水平。ESRGAN 领先的 LPIPS 得分是以其他指标的某些退化为代价的，特别是与 LR-PSNR 相比。幻觉出的细节往往与真实图像中的细节不一致，但如果细节在视觉上可信，这在现实世界的应用中可能不是重大问题，因为观众无法访问真实图像。

SRFLOW 和 SRDIFF 实现了相当的结果，指标和感知锐度之间取得了良好的平衡。

在表 1 的最后一行，我们展示了我们的专有方法的结果，该方法是内部开发的。它使用 GAN 架构，但在文献中的其他提议上进行了几项调整和改进，包括 ESRGAN。这些改进显著降低了计算复杂性，同时保持了竞争力的结果，特别是残差网络结构的变化提高了放大图像与真实图像的相关性。这反映在与 ESRGAN 相比大大提高的 LR-PSNR 得分上，现在与其他所有方法具有竞争力。提高效率的贡献包括对残差结构和其他网络架构方面的多项调整，一个调整后的混合损失，可以减轻网络幻觉的潜力，一个更有效的 LR 和 HR 层之间的映射，允许在不严重影响输出质量的情况下减少网络层数，以及一个精心调整的训练策略，减少了模式崩溃的可能性。这些变化结合起来，使得网络权重的数量减少了 90%，直接影响了放大过程的计算复杂性，同时相对于 ESRGAN 提高了所有指标，除了 LPIPS 得分略有下降。请注意，为了本次比较，我们的方法最初是为视频超分辨率开发的，支持同时去隔行和放大，已经适应了 SISR，并在 DIV2K 数据集上进行了训练。

在表 1 的最后一列，我们包括了使用 RTX3080Ti GPU 实现的每种方法的吞吐量。这允许估计每种方法在云中的单个 GPU 实例中运行时的相对放大成本。正如预期的那样，NN 系数的数量与吞吐量之间存在强相关性，因为系数的数量显然会影响要执行的乘法和加法操作的数量。然而，这种关系并不完全线性，因为与 NN 架构和带宽约束相关的其他因素会影响实际的推理时间。

作为运营成本的参考，一个配备单个 V100 GPU 的云实例在主要云供应商处的标准成本约为每小时 3 美元，推理时间大约比 RTX3080Ti 慢 30%。使用我们的方法对 1 小时 1920x1080 逐行 60fps 视频进行逐帧放大到 3840x2160 大约需要 16 小时，使用默认的 ESRGAN 需要 47 小时，使用 SWIN2R 需要 100 小时，使用 SRFLOW 需要 125 小时，而使用 SRDIFF 对每帧运行 100 次迭代则需要惊人的 3300 小时，正如作者所提出的。这清楚地展示了运营成本如何迅速上升，我们的方法大约为每小时 50 美元，原始 ESRGAN 大约为每小时 140 美元，SWIN2R 为每小时 300 美元，SRFLOW 为每小时 375 美元，SRDIFF 为每小时 10000 美元，这种成本可能只适用于电影等高价值资产。请注意，这些只是指示性成本，因为算法可能在作者提供的模型上有一些优化空间。此外，我们只关注处理成本，没有考虑现实世界应用所需的存储和进出所需的成本。

结果表明，通过精心设计和优化以减轻 GAN 通常相关的一些问题（如模式崩溃和幻觉），基于 GAN 的方法可以在计算成本较低的情况下提供有竞争力的结果，尽管它们的受欢迎程度有所下降。它们也非常适合视频放大应用，因为训练额外的鉴别器的成本在模型用于放大大量图像时变得无关紧要。

表 2 提供了各种架构类型的相对比较。

表 2

系统架构和应用

图 8

Nvidia 和 Microsoft 最近发布了他们的 AI 驱动的超分辨率解决方案，这些解决方案利用现代消费级 GPU 上的本地资源，在显示前实时视频上缩放和增强（见图 8），展示了这项技术正受到越来越多公司的关注。尽管这些解决方案特别适合于只有少数观众访问的流媒体应用，如视频会议和旧遗产内容流媒体，或者在传输带宽高度受限的情况下，它们存在一些可能限制其在其他应用中成功的缺陷。

首先，它们能够提供的视频质量本质上是有限的，因为它们依赖于观看设备的硬件资源。尽管现代消费级 GPU 为神经网络推理提供了高计算能力和大量的内存，但实时播放期间必须进行上转换这一事实严重限制了所使用的 DL 上转换算法的大小和拓扑结构。结果还将取决于每个设备上可用的资源，这意味着内容提供商无法控制视频的实际呈现方式。这直接限制了内容货币化的潜力，因为优质视频质量不取决于内容提供商，而是取决于观看设备的能力和功能。此外，当流媒体被多个观众解码时，它在规模上极其能效低下，因为耗电的上转换必须在每个兼容的观看设备上运行。

图 9

对于需要大量观众访问相同流的应用，内容提供商侧进行上转换有多个优势（见图 9）。

首先，内容提供商保留了对内容呈现方式的控制，保证了对每个支持设备的高质量，无论其处理能力如何。这可能允许内容提供商货币化更高质量的内容，而上转换可以依赖于更多的资源，因为它不再依赖于观看设备的能力和功能。云解决方案特别适合这种应用，因为它提供了大量的硬件加速资源和完全可扩展的成本。内容的商业价值成为决定手头应用经济上可行的资源量的主要驱动因素，帮助确定上转换视频感知质量的操作点。图 10 说明了如何使用多个 VM 来增加上转换过程的吞吐量。

图 10

在内容提供商侧进行上转换的主要缺点是可能会增加内容分发所需的带宽，但这一因素可以通过有效的 CDN 设计来缓解，特别是当内容被大量观众访问时。

最终，应用的性质和内容价值将是决定最佳 DL 上转换方法的最重要因素。解码器侧上转换可能是视频会议或旧遗产内容等观众数量非常少的流媒体的最佳解决方案，不仅因为有限的货币化潜力，而且因为确保上转换成本只在需要时产生。在这些情况下，可能不需要提供最先进的结果的小尺寸、低推理复杂度方法可能是一个好选择。非常高价值的离线内容，如电影，可能会从不考虑成本的最佳上转换中受益，因为资产的高价值将证明上转换成本和处理时间是合理的。这些方法可以依赖于一些最复杂、高度定制和性能更好的方法，基于最新的流和扩散模型，在云上运行，可以根据需要进行扩展。高价值的现场内容，如体育赛事，可能会对处理能力施加一些限制，因为上转换必须实时进行，额外的延迟是关键，但云扩展可能有助于在预算约束内提供所需的处理能力，如图 10 所示。最后，对于任何其他类型的内容，一个表现良好且可扩展的解决方案可能有助于在可用处理资源上实现最佳的视频质量，旨在在给定内容价值的情况下实现经济上可行的最佳平衡。

上转换策略的成功也高度依赖于用于训练模型的数据集，因此确保数据集足够多样化且代表将要在实际生活中处理的内容至关重要。大多数文献中的模型都是使用原始图像和视频进行训练和评估的，但在现实世界的应用中，输入图像通常会包含需要建模和考虑的先前压缩阶段的伪影，否则可能会产生质量较差的上转换。最终，采用一个不够强大以应对输入质量变化的非常复杂的上转换算法是没有意义的，因为它可能比一个更简单但更可靠的方法表现更差。

结论

在本文中，我们提供了一些最有前景的视频超分辨率增强趋势和架构的概述，比较了它们在客观指标、感知质量和计算复杂性方面的相对性能。我们专注于 SISR，因为这使我们能够分离每个 NN 架构实现的空间细节增强效果与其特征对齐策略的成功。超分辨率方法自 20 世纪 80 年代诞生以来已经取得了长足的进步，计算机视觉、机器学习和深度学习的进步使得从低分辨率输入生成高质量图像和视频成为可能。虽然 SR 方法领域仍在不断发展，但生成模型的最新发展可能会在内容分发方面发挥重要作用，帮助内容提供商降低生产成本，增加他们的 UHD 产品。

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2024-03-10，如有侵权请联系 cloudcommunity@tencent.com 删除

深度学习