二、环境配置Transformer依赖较新的深度学习框架,这里我们使用TensorFlow 2.x版本。可以在GPU服务器或笔记本上安装,也可以使用云服务中的GPU资源。...三、模型构建Transformer的基本模块包括多头注意力、前馈网络、残差连接等,TensorFlow提供了Keras接口可以方便构建。...512之间2) 词表大小:一般限制在5000-500003) 隐层大小:256-10244) 注意力头数:2-85) 前馈网络宽度:1024-40966) 训练批大小:128-5127) 学习率与优化器:...加入checkpoint保存最佳模型,early stop等Callback,设置10-20个Epoch, batch size 128-512,使用Adam优化器和学习率策略训练。...训练过程中可以观察Loss曲线判断效果,每隔一定步数就在验证集上评估各项指标,如Perplexity,BLEU等。如果指标开始下降可以early stop。