腾讯香港中文大学修正认知 CNN启动！！大战AI架构巨人!CNN vs Transformer谁才是最强神器?

原创

疯狂的KK

修改于 2024-01-25 15:12:50

1.1K0

修改于 2024-01-25 15:12:50

文章被收录于专栏：Java项目实战

引言

随着深度学习的快速发展，各种神经网络模型涌现出来，CNN、Transformer和MLP（多层感知机）都是其中的代表。它们在不同的领域和任务中表现出色，但在某些方面也存在差异。本文将对它们进行比较，并探讨它们在不同场景下的优劣势。

CNN：卷积神经网络

卷积神经网络(CNN)源自生物视觉识别系统,以改进传统神经网络。它采用卷积层、池化层来处理输入图像。

优点:在图像领域工作效果显著,如图像分类、目标检测、语义分割等。

CNN是一种经典的神经网络模型，在计算机视觉领域取得了重大突破。它通过卷积层和池化层来提取图像中的特征，并通过全连接层进行分类或回归。CNN在处理图像、语音和自然语言处理等领域都取得了显著的成果。

以下是一个简单的CNN示例代码，用于图像分类任务：

import tensorflow as tf
from tensorflow.keras import layers

# 构建CNN模型
model = tf.keras.Sequential()
model.add(layers.Conv2D(32, (3, 3), activation='relu', input_shape=(32, 32, 3)))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.MaxPooling2D((2, 2)))
model.add(layers.Conv2D(64, (3, 3), activation='relu'))
model.add(layers.Flatten())
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(10))

# 编译和训练模型
model.compile(optimizer='adam',
              loss=tf.keras.losses.SparseCategoricalCrossentropy(from_logits=True),
              metrics=['accuracy'])
model.fit(train_images, train_labels, epochs=10, validation_data=(test_images, test_labels))

Transformer：注意力机制的革命

Transformer原始用于机器翻译,通过自注意力机制实现序列数据的全局关系学习。

优点:比传统RNN学习长期依赖更有效,在NLP领域表现优异,如BERT、GPT系列等。

Transformer是近年来引起巨大关注的模型，在自然语言处理和机器翻译等领域取得了突破性的成果。它引入了自注意力机制，能够更好地处理序列数据中的长距离依赖关系。Transformer通过编码器-解码器结构来进行序列到序列的学习任务。

以下是一个简单的Transformer示例代码，用于机器翻译任务：

import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 构建Transformer模型
encoder_inputs = keras.Input(shape=(None,), dtype="int64")
decoder_inputs = keras.Input(shape=(None,), dtype="int64")
encoder_padding_mask = keras.Input(shape=(1, 1, None))
decoder_padding_mask = keras.Input(shape=(1, 1, None))

# ... 构建编码器和解码器 ...

transformer = keras.Model(
    [encoder_inputs, decoder_inputs, encoder_padding_mask, decoder_padding_mask],
    decoder_outputs,
)

# 编译和训练模型
loss_fn = keras.losses.SparseCategoricalCrossentropy(from_logits=True)
optimizer = keras.optimizers.Adam(learning_rate=0.001)
transformer.compile(optimizer=optimizer, loss=loss_fn)
transformer.fit(dataset, epochs=10)

MLP：经典的多层感知机

MLP是深度学习的鼻祖，也是最早被广泛应用的模型之一。它由多个全连接层组成，每个神经元通过激活函数与下一层的所有神经元连接。MLP在各种任务中表现良好，尤其在传统的结构化数据上。

以下是一个简单的MLP示例代码，用于二分类任务：

import tensorflow as tf
from tensorflow.keras import layers

# 构建MLP模型
model = tf.keras.Sequential()
model.add(layers.Dense(64, activation='relu', input_dim=100))
model.add(layers.Dense(64, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

# 编译和训练模型
model.compile(optimizer='adam',
              loss='binary_crossentropy',
              metrics=['accuracy'])
model.fit(x_train, y_train, epochs=10, batch_size=32)

模型比较和选择

CNN、Transformer和MLP在不同的领域和任务中具有不同的优劣势。以下是它们的主要特点和适用场景的总结：

CNN：由于其卷积和池化操作，CNN在处理图像、音频和视频等空间结构数据上表现出色。在计算机视觉领域的图像分类、目标检测和图像生成等任务中广泛应用。
Transformer：由于其自注意力机制，Transformer在处理序列数据（如自然语言）中的长距离依赖关系方面表现出色。在机器翻译、语言模型和文本生成等任务中取得了巨大成功。
MLP：MLP作为传统的深度学习模型，适用于各种结构化数据和传统机器学习任务。在金融领域的风险评估、销售预测和客户分类等任务中广泛应用。

在选择模型时，需要根据任务的特点和数据类型进行权衡和选择。如果处理的是图像、音频或视频等空间结构数据，CNN是一个很好的选择。如果处理的是序列数据，特别是自然语言处理任务，Transformer可能更适合。而对于传统的结构化数据和常见的机器学习任务，MLP仍然是一个可靠的选择。

腾讯港中文新研究修正认知：CNN搞多模态不弱于Transfromer

本段文字引用于https://zhuanlan.zhihu.com/p/673889288

论文原文地址：https://arxiv.org/abs/2311.15599

大核卷积神经网络（ConvNets）最近受到了广泛的研究关注，但有两个尚未解决的关键问题需要进一步研究。

1）现有大内核ConvNet的架构在很大程度上遵循了传统ConvNet或Transformer的设计原则，而大内核ConvNet的架构设计仍然没有得到充分解决。

2）由于Transformers在多种模态中占主导地位，ConvNets在视觉以外的领域是否也具有很强的通用感知能力还有待研究。

本文从两个方面进行贡献。

1）我们提出了设计大内核ConvNet的四个架构指南，其核心是利用大内核的本质特征，将它们与小内核区分开来——它们可以看得很宽而不深入。遵循这些准则，我们提出的大内核ConvNet在图像识别方面表现出领先的性能。例如，我们的模型实现了 88.0% 的 ImageNet 准确率、55.6% 的 ADE20K mIoU 和 56.4% 的 COCO 盒 AP，与最近提出的一些强大竞争对手相比，表现出更好的性能和更高的速度。

2）我们发现，大型内核是在ConvNets最初不熟练的领域中释放其卓越性能的关键。通过某些与模态相关的预处理方法，即使没有对架构进行特定于模态的定制，所提出的模型也能在时间序列预测和音频识别任务上实现最先进的性能。

具体地说,我们为大内核ConvNets提出了四个体

系结构指南--1)使用诸如SE块24的有效结构来增

加深度,2)使用所提出的扩展重编程块来重新参数化

大内核conv层,以在没有推理成本的情况下提高性能,

3)由下游任务决定内核大小,通常只在中高层使用大

型内核层,以及4)添加3x3conv而不是更多的大内核,同

时放大模型的深度。按照这样的指导原则建立的

ConvNet(图)分别实现了上述三种效果,因为它使

用少量的大内核来保证大的ERF,使用小内核来更有效

地提取更复杂的空间模式,使用多个轻量级块来进一

步增加深度以增强表示能力。

代码地址：

https://github.com/AILab-CVC/UniRepLKNet

UniRepLKNet：用于音频、视频、点云、时间序列和图像识别的通用感知大核卷积网络

结论

本文对CNN、Transformer和MLP这三种深度学习模型进行了比较，并讨论了它们在不同场景下的优劣势。总的来说，CNN在图像处理领域表现突出，Transformer在处理序列数据中的长距离依赖关系方面具有优势，而MLP则适用于传统的结构化数据和机器学习任务。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

chatgpt

transform

玩转腾讯混元大模型

aigc