开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

模型训练:具有不同超参数的已保存模型的命名方案

模型训练是指使用机器学习算法对数据进行处理和分析，以生成一个能够对未知数据进行预测或分类的模型。在模型训练过程中，超参数是指在算法中需要手动设置的参数，这些参数不会通过训练数据自动学习得到，而是需要根据经验或者试验来确定。

为了方便管理和区分具有不同超参数的已保存模型，可以采用以下命名方案：

使用超参数作为模型名称的一部分：可以将超参数的取值作为模型名称的一部分，以便在命名中体现出不同超参数的差异。例如，如果模型的学习率为0.01，批量大小为32，可以将模型命名为"model_lr0.01_bs32"。
使用时间戳作为模型名称的一部分：可以将模型保存的时间戳作为模型名称的一部分，以便在命名中体现出不同保存时间的差异。例如，可以将模型命名为"model_20220101"，表示该模型是在2022年1月1日保存的。
使用版本号作为模型名称的一部分：可以为每个模型设置一个版本号，以便在命名中体现出不同版本的差异。例如，可以将模型命名为"model_v1"，表示该模型是第一个版本。

综合使用上述命名方案，可以得到一个完整的模型命名，例如"model_lr0.01_bs32_20220101_v1"，表示该模型具有学习率为0.01，批量大小为32，保存时间为2022年1月1日，版本号为1。

对于模型训练的应用场景，它广泛应用于各个领域，包括自然语言处理、图像识别、推荐系统等。在这些应用场景中，模型训练可以通过对大量数据的学习和分析，提取出数据中的规律和模式，从而实现对未知数据的预测和分类。

腾讯云提供了一系列与模型训练相关的产品和服务，包括：

腾讯云机器学习平台（https://cloud.tencent.com/product/tensorflow）：提供了丰富的机器学习算法和模型训练工具，支持各种超参数的设置和调整。
腾讯云深度学习平台（https://cloud.tencent.com/product/dl）：提供了强大的深度学习框架和模型训练环境，支持高性能的GPU加速。
腾讯云数据处理平台（https://cloud.tencent.com/product/dp）：提供了数据处理和分析的工具和服务，可以用于数据的清洗、转换和特征提取等预处理步骤。

通过使用腾讯云的相关产品和服务，用户可以方便地进行模型训练，并且根据具体的需求选择适合的超参数和命名方案，以达到更好的训练效果和管理效率。

相关搜索:对已保存的模型进行Tensorflow训练如何使用pytorch动态图属性来并行训练具有不同超参数的模型？将已保存的训练模型上传到MLKIT 继续训练从训练并保存的模型加载的模型训练具有不同颜色特征的深度分类模型如何批量训练具有不同图像形状的模型为什么在模型训练过程中选择的超参数与来自重采样的超参数不同？更改预训练模型的参数嵌入具有不同输入维度的预训练Keras模型冻结已保存的tensorflow模型 Keras加载的模型输出与训练模型输出不同得到了训练模型和负载模型的不同精度如何增加训练Theano保存的模型？如何保存在SmartCore中训练的模型？如何加载多个已保存的模型具有dropout设置的Transformers预训练模型集成具有不同输入的模型训练模型-来自不同角度的冗余图片姜戈。将模型方法保存到不同的模型对于具有CPU支持的模型训练，CUDA GPU的替代方案是什么？

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

DeepMind与Waymo合作，模仿进化竞争，开发更优方案训练自动驾驶AI

Waymo与DeepMind达成合作，寻找一种更有效的流程来训练和微调自动驾驶算法。

04

解决方案：模型中断后继续训练出错效果直降、自动生成requirements.txt、‘scipy.misc‘ has no attribute ‘imread‘

在有些时候我们需要保存训练好的参数为path文件，以防不测，下次可以直接加载该轮epoch的参数接着训练，但是在重新加载时发现类似报错:

01

Deep learning with Python 学习笔记（9）

使用 model.fit()或 model.fit_generator() 在一个大型数据集上启动数十轮的训练，有点类似于扔一架纸飞机，一开始给它一点推力，之后你便再也无法控制其飞行轨迹或着陆点。如果想要避免不好的结果（并避免浪费纸飞机），更聪明的做法是不用纸飞机，而是用一架无人机，它可以感知其环境，将数据发回给操纵者，并且能够基于当前状态自主航行。下面要介绍的技术，可以让model.fit() 的调用从纸飞机变为智能的自主无人机，可以自我反省并动态地采取行动

01

BERT和GAN咋压缩，且看咱PaddleSlim新利器—— OFA

目前在深度学习领域，一方面需要追求更高的性能，采用强大、复杂的模型网络和实验方法；另一方面又需要关注如何将算法更稳定、高效地在硬件平台上落地。复杂的模型固然展现更好的性能，但过高的存储空间需求和计算资源消耗，是影响在各硬件平台上的落地的重要原因之一。尤其在NLP领域，以BERT、GPT为代表的预训练模型规模越来越大。

02

MobileAI2021 端侧图像超分竞赛方案简介

MobileAI的各大竞赛已经落下帷幕，冠亚军排名也相继确定，笔者近期会逐步将相关领域的竞赛结果进行一下简单总结，同时也将对这其中的冠军军及优秀方案进行一番解读，感兴趣的朋友可以关注一波...

03

GitHub YOLOv5 开源代码项目系列讲解（四）------训练相关参数解释

可以用于指定一个训练好的模型路径，用这个模型初始化模型中一些参数（首先需要提前下载或运行程序时会自动下载）

01

SR-LUT | 比bicubic还快的图像超分，延世大学提出将查找表思路用于图像超分

标题&作者团队本文是延世大学在图像超分方面的颠覆性之作，它首次提出采用LUT进行图像超分，尽管该方法的性能仅比传统插值方法稍好，甚至不如FSRCNN性能高。但是，该方案最大的优势在于推理速度快，比双三次插值还要快。SR-LUT斜眼看到插值方案以及深度学习方案，轻轻的说了句：“论速度，还有谁！” Abstract 从上古时代的“插值方法”到中世纪的“自相似性方案”，再到前朝时代的“稀疏方案”，最后到当前主流的“深度学习方案”，图像超分领域诞生了数以千计的方案，他们均期望对低分辨率图像遗失的纹理细节进行

01

对比学习在有赞的应用

一般做算法任务时，都需要搜集大量标注的数据，假如我们要预测一个商品的产品词（中心词），下面是一个商品标题：

01

Flair实战文本分类

Flair是一个基于PyTorch构建的NLP开发包，它在解决命名实体识别（NER）、语句标注（POS）、文本分类等NLP问题时达到了当前的顶尖水准。本文将介绍如何使用Flair构建定制的文本分类器。

03

机器学习实战-支持向量机原理、Python实现和可视化（分类）

支持向量机（SVM）广泛应用于模式分类和非线性回归领域。SVM算法的原始形式由Vladimir N.Vapnik和Alexey Ya提出。自从那以后，SVM已经被巨大地改变以成功地用于许多现实世界问题。

02

使用Optuna进行超参数优化

超参数优化是一项艰巨的任务。但是使用 Optuna 等工具可以轻松应对。在这篇文章中，我将展示如何使用 Optuna 调整 CatBoost 模型的超参数。

02

仅用四行代码实现RNN文本生成模型

文本生成（generating text）对机器学习和NLP初学者来说似乎很有趣的项目之一，但也是一个非常困难的项目。值得庆幸的是，网络上有各种各样的优秀资源，可以用于了解RNN如何用于文本生成，从理论到深入具体的技术，都有一些非常好的资源。所有的这些资源都会特别分享一件事情：在文本生成过程中的某个时候，你必须建立RNN模型并调参来完成这项工作。虽然文本生成是一项有价值的工作，特别是在学习的该过程中，但如果任务抽象程度高，应该怎么办呢？如果你是一个数据科学家，需要一个RNN文本生成器形式的模块来填充项目呢？或者作为一个新人，你只是想试试或者提升下自己。对于这两种情况，都可以来看看textgenrnn项目，它用几行代码就能够轻松地在任何文本数据集上训练任意大小和复杂的文本生成神经网络。 textgenrnn项目由数据科学家Max Woolf开发而成。 textgenrnn是建立在Keras和TensorFlow之上的，可用于生成字符和文字级文本。网络体系结构使用注意力加权来加速训练过程并提高质量，并允许调整大量超参数，如RNN模型大小、RNN层和双向RNN。读者可以在Github上或类似的介绍博客文章中阅读有关textgenrnn及其功能和体系结构的更多信息。

01

10万美元+26天，一个低成本千亿参数LLM就诞生了

包括仅解码器结构（如 GPT 和 LLAMA 系列模型）、仅编码器结构（如 BERT）和编码器 - 解码器结构（如 T5）以及它们的变体模型在内的大型语言模型（LLM）已经取得了非凡的成功，并已被广泛用于各种语言处理和多模态任务。

03

三行代码，AutoML性能提高十倍！微软开源FLAMA，比sota还要sota

近年来，AutoML在自动化机器学习的设计方面已经取得了巨大的成功，例如设计神经网络架构和模型更新规则。

02

Bag of Tricks for Neural Architecture Search

相比于普通的分类网络，基于超网的NAS更加难以训练，会出现收敛效果较差甚至不收敛的情况。并且，基于超网的NAS还需要额外关注子网的排序一致性等问题，训练策略的选择也极为重要。AutoSlim, BigNAS等文章都花费了大量篇幅来讲解超网的训练技巧。本文是CVPR2021 Workshop中的一篇短文，介绍了NAS中常用的Tricks。

02

思想的碰撞：非局部均值偶遇深度学习（第二部）

code：https://github.com/SHI-Labs/Cross-Scale-Non-Local-Attention

01

深度 | 从修正Adam到理解泛化：概览2017年深度学习优化算法的最新研究进展

选自Ruder Blog 作者：Sebastian Ruder 机器之心编译参与：刘晓坤、路雪、蒋思源 Sebastian Ruder 的这篇博客总结了 2017 年深度学习优化算法的最新进展，他主要从Adam算法的局限性与提升方法、学习率衰减方案、超参数搜索、怎样学习优化和理解泛化性能等角度向我们展示近来研究者对最优化方法的思考与探索。深度学习终究是寻找一个使泛化性能足够好的（损失函数）极小值过程，它并不一定要求能搜索到非凸函数的最小值点，而需要模型的损失能得到显著性地降低，以收敛到一个可接受的极小值

面向超网络的连续学习：新算法让人工智能不再“灾难性遗忘”

这种可以在新的环境中不断吸收新的知识和根据不同的环境灵活调整自己的行为的能力，也正是深度学习系统与人脑相差甚远的重要原因。

02

Auto-Sklearn：通过自动化加速模型开发周期

典型的机器学习工作流程是数据处理、特征处理、模型训练和评估的迭代循环。想象一下，必须对数据处理方法、模型算法和超参数的不同组合进行试验，直到我们获得令人满意的模型性能。这项费时费力的任务通常在超参数优化期间执行。

03

2017年深度学习优化算法最新进展：如何改进SGD和Adam方法？

原作 Sebastian Ruder 王小新编译自 ruder.io 量子位出品 | 公众号 QbitAI 深度学习的基本目标，就是寻找一个泛化能力强的最小值，模型的快速性和可靠性也是一个加分点。随机梯度下降（SGD）方法是1951年由Robbins和Monro提出的[1]，至今已有60年历史。在当前的深度学习研究中，这种方法至关重要，一般被用在反向传播过程中。近年来，研究人员提出一些新的优化算法，使用了不同方程来更新模型参数。2015年Kingma和Ba提出的Adam方法[18]，可看作是目前最

Simple Transformer：用BERT、RoBERTa、XLNet、XLM和DistilBERT进行多类文本分类

Simple Transformers专为需要简单快速完成某项工作而设计。不必拘泥于源代码，也不用费时费力地去弄清楚各种设置，文本分类应该非常普遍且简单——Simple Transformers就是这么想的，并且专为此实现。

02

大模型应用新范式：统一特征表示优化（UFO）

从深度学习技术被提出以来，一直践行着“think big”的理念。特别是当预训练技术被广泛应用之后，更多的数据结合更大的模型参数量会持续带来模型性能的提升，这条定律不断被近期发布的各种大模型所验证。在刚刚过去的2021年，百度文心大模型中的ERNIE3.0、微软和英伟达联合推出的MT-NLP以及谷歌的Switch Transformer等等，参数量可达千亿甚至万亿。

03

入门 | 深度学习模型的简单优化技巧

以下是我与同事和学生就如何优化深度模型进行的对话、消息和辩论的摘要。如果你发现了有影响力的技巧，请分享。

02

深度学习三人行(第4期)---- TF训练DNN之进阶

上期我们一起学习了深度学习三人行(第3期)---- TensorFlow从DNN入手简单的介绍了ANN(人工神经网络），并训练了我们第一个DNN(深度神经网络)，但是一个非常浅的DNN，只有两个隐藏层。如果你需要解决一个非常复杂的问题，比如在高分辨率的图像中分辨不上百种不同类型的实体对象，这时候你就需要训练一个更深的DNN来完成，可能是10层，并且每层会包含上百个神经元，并由上成千上百个连接器组成。这时候你将面临如下问题：你将面临非常诡异的梯度消失或爆炸，这会直接影响DNN的构建并且导致浅层的网络非常

08

深度强化学习库的设计思想带你深入了解DRL：从环境、网络更新、经验池、经验池、算法基类分离度、分布式、多进程等方面评价

大部分深度强化学习 DRL 算法（主要是策略梯度 policy gradient、Actor-Critic Methods）可以抽象成上面这种 **DDPG-style RL training pipeline。**它的可拓展性非常好，且方便拓展，与稳定训练。

02

【深度干货】2017年深度学习优化算法研究亮点最新综述（附slide下载）

【导读】梯度下降算法是机器学习中使用非常广泛的优化算法，也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。但是，它们就像一个黑盒优化器，很难得到它们优缺点的实际解释。Sebastian Ruder曾在去年发表博文《梯度下降优化算法综述》（An overview of gradient descent optimization algorithms），详细对比了梯度下降算法中的不同变种，并帮助使用者根据

05

重磅 | 2017年深度学习优化算法研究亮点最新综述火热出炉

翻译 | AI科技大本营（微信ID：rgznai100）梯度下降算法是机器学习中使用非常广泛的优化算法，也是众多机器学习算法中最常用的优化方法。几乎当前每一个先进的(state-of-the-art)机器学习库或者深度学习库都会包括梯度下降算法的不同变种实现。但是，它们就像一个黑盒子一样，很难得到它们优缺点的实际解释。近日，Sebastian Ruder针对2017年优化算法的一些新方法，整理出了一份2017深度学习优化研究亮点报告，值得关注。近年来有很多不同的优化算法被提出来了，这些算法采用不同

07

前沿 | DeepMind提出新型超参数最优化方法：性能超越手动调参和贝叶斯优化

选自DeepMind 作者：Max Jaderberg 机器之心编译参与：蒋思源、刘晓坤近日，DeepMind 发表论文提出一种新型的超参数调优方法，该方法从遗传算法获得启发大大提升了最优超参数搜索的效率。它的性能要比贝叶斯优化好很多，且在各种前沿模型的测试中很大程度上提升了当前最优的性能。从围棋、Atari 游戏到图像识别与语言翻译，神经网络都取得了巨大的成功。但我们常常忽略的是，神经网络在特定应用上的成功通常取决于研究开始时所做的一系列选择，包括使用什么样的神经网络架构、数据与方法进行训练等。目

04

2022 年 4 月 10篇 ML 研究论文推荐

NVidia 的新 H100 GPU已经发布了，我们也很久没有发论文推荐了，这是4月份的论文推荐：Google 的 5400 亿参数 PaLM、Pathways、Kubric、Tensor Programs、Bootstrapping Reasoning With Reasoning、Sparse all-MLP 架构、使用深度学习制作人脸动画等等。

02

百度黄埔学院：十行代码高效完成深度学习POC

课程2：十行代码高效完成深度学习POC，主讲人为百度深度学习技术平台部：陈泽裕老师。

03

简单有效的多标准中文分词详解

本文介绍一种简洁优雅的多标准中文分词方案，可联合多个不同标准的语料库训练单个模型，同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能，在10个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享，复杂度不随语料库种类增长。

02

RepSR让BN重回SR怀抱，加速训练效率，同时消除伪影问题

本文对重参数设计理念进行了重审视，对重参数超分网络的关键成分进行了调查。我们发现：BN层有助于引入训练非线性能力并改善模型性能(这与OREPA一文的出发点相同)。但是，由于BN会恶化超分性能并引入伪影问题，所以超分模型往往会忽视BN层。

02

TensorFlow学习笔记--自定义图像识别

本篇文章主要讲解自己的图像数据如何在TnesorFlow上训练，主要从数据准备、训练模型、验证准确率和导出模型并对图片分类。重点如下：

01

使用 JGibbLDA 进行 LDA 模型训练及主题分布预测

最近新闻个性化推荐项目中用到 LDA 来确定各个新闻的主题分布，我优先使用了 Spark Mllib LDA，发现并不理想，主要表现在极吃内存且计算慢，所以打算暂时放弃之。优先使用 Spark LDA 的主要原因是希望和能和 Spark Streaming 结合在一起进行实时预测。所以在考察新方案时优先考虑 Java 实现的 LDA 开源版本，之后发现了 JGibbLDA，下面从使用角度进行简单介绍

02

超详细中文预训练模型ERNIE使用指南

最近在工作上处理的都是中文语料，也尝试了一些最近放出来的预训练模型（ERNIE，BERT-CHINESE，WWM-BERT-CHINESE），比对之后还是觉得百度的ERNIE效果会比较好，而且使用十分方便，所以今天就详细地记录一下。希望大家也都能在自己的项目上取得进展~

03

170亿参数，28项公开测试集SOTA，行业最大的视觉多任务统一大模型来了

在5月20日举办的WAVE SUMMIT 2022深度学习开发者峰会上，百度发布了行业最大视觉多任务文心VIMER-UFO 2.0大模型，模型参数量达到170亿，单模型28项公开数据集SOTA，基于飞桨Task MoE架构，根据任务的不同自动选择激活最优的区域，从而实现100倍参数压缩，同时支持下游任务快速扩展。

02

基于yolov4的目标检测_yolov5预训练模型

YOLOv5的代码是开源的，因此我们可以从github上克隆其源码。不得不说GitHub的确是全球最大的男性交友网站，里面的人个个都是人才，yolov5发布才一年左右的时间，YOLOv5就已经更新了5个分支了，分别是yolov5.1-yolov5.5分支。该项目就是利用的yolov5.5分支来作为讲解。

03

简单有效的多标准中文分词

-欢迎加入AI技术专家社群>> 本文介绍一种简洁优雅的多标准中文分词方案，可联合多个不同标准的语料库训练单个模型，同时输出多标准的分词结果。通过不同语料库之间的迁移学习提升模型的性能，在个语料库上的联合试验结果优于绝大部分单独训练的模型。模型参数和超参数全部共享，复杂度不随语料库种类增长。论文：https://arxiv.org/abs/1712.02856 代码和语料：https://github.com/hankcs/multi-criteria-cws 自然语言处理，特别是中文处理中，语料库往往珍

07

OpenAI Gym 高级教程——分布式训练与并行化

在本篇博客中，我们将深入探讨 OpenAI Gym 高级教程，特别关注分布式训练与并行化的方法。我们将使用 Ray 这个强大的分布式计算库来实现并行化训练。

01

基于yolov4的目标检测_yolov3目标检测

YOLOv5的代码是开源的，因此我们可以从github上克隆其源码。不得不说GitHub的确是全球最大的男性交友网站，里面的人个个都是人才，yolov5发布才一年左右的时间，YOLOv5就已经更新了5个分支了，分别是yolov5.1-yolov5.5分支。该项目就是利用的yolov5.5分支来作为讲解。

02

入门 | 深度学习模型的简单优化技巧

以下是我与同事和学生就如何优化深度模型进行的对话、消息和辩论的摘要。如果你发现了有影响力的技巧，请分享。

00

了解自动化机器学习 AutoML

自动化机器学习（AutoML）旨在自动化机器学习模型的开发流程，通过简化或去除需要专业知识的复杂步骤，让非专家用户也能轻松创建和部署机器学习模型。AutoML 的核心组件包括：数据预处理、特征工程、模型选择、模型训练与超参数优化以及模型部署与推理。

00

业界 | Uber推出机器学习平台Michelangelo：全面处理工作流程推动AI民主化

选自Uber 作者：JEREMY HERMANN、MIKE DEL BALSO 机器之心编译参与：黄小天、路雪、蒋思源近日 Uber 提出了他们的机器学习平台 Michelangelo，该平台构建在 Uber 数据和计算基础设施之上，并且由一系列开源系统和内置组件组成。Michelangelo 可提供易于使用且自动化的工具处理数据管理、模型训练、模型评估、模型部署、执行预测和检测预测等工作流程。Uber 希望 Michelangelo 可以在推动 AI 民主化方面贡献出应有的力量。 Uber Engin

06

入门 | 简单实用的DL优化技巧

本文介绍了几个深度学习模型的简单优化技巧，包括迁移学习、dropout、学习率调整等，并展示了如何用 Keras 实现。

03

Android | 通过机器学习实现精准字母手势识别

看过上一篇「一个很糙的字母手势识别方案」文章并尝试了的同学，就一定知道，「糙手势」的识别是有多糙，糙的只能识别字母「C」。今天这篇就用 Android 自带的 gesture API 来实现更为精准的识别。看到这里，有的同学可能就会说了，「标题党，哪有机器学习！」。别急，认真看，认真学。先上效果图，注意底部识别分数变化，至于为什么粉红色，这是「社会人」小猪佩奇的颜色好吧~ 编不下去了，这个画板源码部分借鉴了 github 下面链接的控件，TA用的就是粉色，我没改~ https://github.com/

05

CMDSR | 为解决多退化盲图像超分问题，浙江大学&字节跳动提出了具有退化信息提取功能的CMDSR

尽管图像超分在单一退化(比如Bicubic、Blur-down)方面取得极大成功，但是，当面对真实场景的复杂且多样退化时，模型的性能会出现严重的下降。近来也有一些针对多退化问题的盲/非盲图像超分，然而这些方法在训练数据与测试数据分布存在偏差时仍会出现性能的下降。

02

DeepMind最新深度学习研究：超参选择利器-引入基于群体的训练

【导读】机器学习的训练和优化是现代深度学习模型中最具有挑战性的方面，本文首先介绍了常用的深度学习超参数优化方法：随机搜索和手动优化，然后引入DeepMind关于深度学习模型超参数优化的最新研究进展：基

07

Sklearn、TensorFlow 与 Keras 机器学习实用指南第三版（一）

2006 年，Geoffrey Hinton 等人发表了一篇论文，展示了如何训练一个能够以最先进的精度（>98%）识别手写数字的深度神经网络。他们将这种技术称为“深度学习”。深度神经网络是我们大脑皮层的（非常）简化模型，由一系列人工神经元层组成。在当时，训练深度神经网络被普遍认为是不可能的，大多数研究人员在 1990 年代末放弃了这个想法。这篇论文重新激起了科学界的兴趣，不久之后，许多新论文证明了深度学习不仅是可能的，而且能够实现令人惊叹的成就，其他任何机器学习（ML）技术都无法匹敌（在巨大的计算能力和大量数据的帮助下）。这种热情很快扩展到许多其他机器学习领域。

01

《Scikit-Learn与TensorFlow机器学习实用指南》第11章训练深度神经网络（下）

训练一个非常大的深度神经网络可能会非常缓慢。到目前为止，我们已经看到了四种加速训练的方法（并且达到更好的解决方案）：对连接权重应用良好的初始化策略，使用良好的激活函数，使用批量规范化以及重用预训练网络的部分。另一个巨大的速度提升来自使用比普通渐变下降优化器更快的优化器。在本节中，我们将介绍最流行的：动量优化，Nesterov 加速梯度，AdaGrad，RMSProp，最后是 Adam 优化。

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭