可以从“目标任务”、“常用方法/模型”、“训练与损失”、“工程流程与评估”几个维度来理解 AI 在图像增强与修复的处理方式——下面给出一个实用而全面的概览与落地建议。
一. 常见任务(目标)
- 去噪(denoising):高感光/低光下的噪声消除。
- 去模糊(deblurring):运动/焦点模糊恢复。
- 超分辨率(SR):低分辨率放大并恢复细节。
- 图像修补/填充(inpainting):缺失区域重建(如去水印、换背景)。
- 色彩上色(colorization):黑白图像上色。
- 压缩伪影去除(artifact removal):JPEG 块状伪影消除。
- 曝光/HDR 恢复、去雾等。
二. 常用技术路径
- 卷积网络(CNNs):DnCNN、EDSR、SRResNet 等,适合多数增强任务。
- 残差/注意力模块:ResBlock、Channel/Spatial Attention 提高细节重建能力。
- 生成对抗网络(GANs):用于提高视觉真实感(SRGAN/ESRGAN/Real-ESRGAN)。
- 变换器/自注意力(ViT/Restormer/Uformer、SwinIR):对长距离依赖和大分辨率效果好。
- 扩散模型(Diffusion):最近在修补、去噪、生成细节上表现突出(如基于 Stable Diffusion 的修复)。
- 无监督/自监督:Noise2Noise、Noise2Self 在没有干净标签时有用。
三. 损失函数与训练策略
- 像素级损失:L1/L2(稳定训练),对 PSNR 有利。
- 感知损失(perceptual loss):用 VGG 特征度量,更贴近人眼感知。
- 对抗损失:提高纹理真实感,但可能产生伪影。
- 结构相似度(SSIM)、LPIPS 等评价或辅助损失。
- 多尺度损失、频域损失、边缘/纹理正则化常用于补强细节。
四. 数据与评估
- 常用数据集:DIV2K、BSD、Set5/Set14(SR);GoPro/GOPRO(去模糊);CelebA-HQ/Places(修复与上色);MIT-Adobe FiveK(曝光)。
- 指标:PSNR/SSIM(客观)、LPIPS、FID(感知质量)、用户研究(主观)。
- 训练注意:合成噪声与真实噪声差异大,需考虑真实域自适应或真实噪声数据采集。
五. 工程实践与部署建议
- 预处理:归一化、裁切补丁、数据增强(翻转、旋转、色域增强)。
- 选择模型:实时需求选轻量网络/量化/剪枝;高质量离线处理用 GAN/扩散模型。
- 推理优化:ONNX、TensorRT、TFLite、混合精度(FP16)。
- 常见开源项目/库:OpenCV(预处理)、PyTorch/TensorFlow(训练)、ESRGAN/Real-ESRGAN、SwinIR、Restormer、LaMa(inpainting)、Stable Diffusion(高质量修复/创作)。
六. 常见问题与注意事项
- 伪造/幻觉(hallucination):GAN/扩散易“编造”不存在的细节,医学/法证场景需谨慎。
- 域差异:训练集与部署场景不一致会显著降质,考虑域自适应或少量真实标注微调。
- 速度/内存权衡:高分辨率图像需要分块处理或内存友好的架构。