用于AI图像处理的神经网络架构丰富多样,不同架构针对特定任务(如图像分类、目标检测、生成等)进行了优化。以下是常见架构的分类及核心特点:
🧠 一、卷积神经网络(CNN)及其变体
作为图像处理的基础架构,CNN通过卷积层提取局部特征、池化层降维和全连接层分类实现高效处理。
- 经典CNN架构
- LeNet-5:最早用于手写数字识别,奠定了卷积-池化交替结构。
- AlexNet:首次引入ReLU激活函数和Dropout,在ImageNet竞赛中突破性提升图像分类精度。
- VGGNet:堆叠多个3×3卷积核,简化结构并增强特征提取能力。
- ResNet:引入残差连接(Skip Connection),解决深层网络梯度消失问题,支持千层网络训练。
- DenseNet:每层与前面所有层直接连接,增强特征复用,减少参数冗余。
2. 轻量化CNN
- MobileNet:使用深度可分离卷积,大幅降低计算量,适配移动端设备。
- EfficientNet:通过复合缩放策略(深度/宽度/分辨率)平衡精度与效率。
🎨 二、生成对抗网络(GAN)及其衍生模型
通过生成器-判别器对抗训练生成逼真图像,支持创作与修复任务。
- 基础GAN
- DCGAN:使用卷积层替代全连接层,提升生成图像质量。
- Conditional GAN(cGAN):引入条件信息(如类别标签),控制生成内容。
2. 专用GAN变体
- CycleGAN:实现无配对数据的风格迁移(如照片转油画)。
- StyleGAN:通过风格向量控制生成细节,用于高分辨率人脸合成。
- SRGAN:结合对抗损失生成超分辨率图像,保留细节纹理。
- Pix2Pix:基于cGAN的图像到图像翻译,如语义分割图转真实照片。
🔍 三、Transformer架构
突破CNN的局部感知局限,通过自注意力机制捕捉全局依赖。
- 纯Transformer模型
- Vision Transformer(ViT):将图像分块为序列,直接应用Transformer编码器,在大数据场景下媲美CNN。
- Swin Transformer:引入层级窗口注意力,降低计算复杂度,适配密集预测任务(如分割)。
2. 混合架构
- ConvNeXt:融合CNN的局部特征提取与Transformer的全局建模能力。
- MobileViT:轻量化设计,兼顾效率与跨域泛化能力。
⚙️ 四、任务专用架构
针对特定场景优化的结构设计:
- 目标检测
- YOLO系列:单阶段端到端检测,实现实时处理(如自动驾驶感知)。
- Faster R-CNN:两阶段检测,通过区域提议网络(RPN)提升定位精度。
2. 图像分割
- U-Net:对称编码器-解码器结构,医学影像分割标杆(如肿瘤识别)。
- Mask R-CNN:扩展Faster R-CNN,同步实现目标检测与实例分割。
3. 图像重建
- AutoEncoder:压缩-重建结构,用于去噪与特征提取。
- DnCNN:深度卷积网络专攻高斯噪声去除。