lambda层中的嵌套模型不可训练_在预训练模型中改变Lambda层中的变量？_BERT编码层是不可训练的 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

机器学习：神经网络（二）

，比较我们可以发现，其实就是增加了一些嵌套的求和符号，因为代价函数最终为一个标量，所以我们需要将

02

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow》第16章使用RNN和注意力机制进行自然语言处理

自然语言处理的常用方法是循环神经网络。所以接下来会从 character RNN 开始（预测句子中出现的下一个角色），继续介绍RNN，这可以让我们生成一些原生文本，在过程中，我们会学习如何在长序列上创建TensorFlow Dataset。先使用的是无状态RNN（每次迭代中学习文本中的随机部分），然后创建一个有状态RNN（保留训练迭代之间的隐藏态，可以从断点继续，用这种方法学习长规律）。然后，我们会搭建一个RNN，来做情感分析（例如，读取影评，提取评价者对电影的感情），这次是将句子当做词的序列来处理。然后会介绍用RNN如何搭建编码器-解码器架构，来做神经网络机器翻译（NMT）。我们会使用TensorFlow Addons项目中的 seq2seq API 。

02

您找到你想要的搜索结果了吗？

是的

没有找到

深度学习Pytorch检测实战 - Notes - 第1&2章基础知识

物体检测技术，通常是指在一张图像中检测出物体出现的位置及对应的类别。我们要求检测器输出5个量：物体类别、

07

梯度翻转层GRL

编码器和领域分类器的训练目标是相反的，我们可以使用对抗网络（Adversarial Networks）的模式来进行训练。而另一种更加简单的方法就是梯度反转了。

03

完美解决keras保存好的model不能成功加载问题

前两天调用之前用keras（tensorflow做后端）训练好model，却意外发现报错了！！之前从来没有过报错！！错误内容粘贴如下：

02

《机器学习实战：基于Scikit-Learn、Keras和TensorFlow》第13章使用TensorFlow加载和预处理数据

Data API还可以从现成的文件（比如CSV文件）、固定大小的二进制文件、使用TensorFlow的TFRecord格式的文件（支持大小可变的记录）读取数据。TFRecord是一个灵活高效的二进制格式，基于Protocol Buffers（一个开源二进制格式）。Data API还支持从SQL数据库读取数据。另外，许多开源插件也可以用来从各种数据源读取数据，包括谷歌的BigQuery。

01

TF-char9-overfitting

\color{red}{泛化能力}：从训练集上学习到数据的真实模型，从而在未知的测试集上也能表现的良好的能力。

03

深度学习正则化

在小数据量的时代，如 100、1000、10000 的数据量大小，可以将数据集按照以下比例进行划分：

02

Keras 在网络中自定义切割数据层

keras支持Lambda可以实现数据自定义处理操作，本文记录切割、截取网络层数据Lambda层实现方法。需求需要在网络层中选取某层，截取其中部分特征，用于模型的特征处理。切割函数 def cut_map(x,index): return x[:, index:-index, index:-index, :] 加入网络层 x = Lambda(cut_map, arguments={'index':32}, name = 'classify_Lambda')(x) 网络效果 📷

01

ICML 2019 | SGC：简单图卷积网络

题目：Simplifying Graph Convolutional Networks

02

tf.while_loop

cond是一个返回布尔标量张量的可调用的张量。body是一个可调用的变量，返回一个(可能是嵌套的)元组、命名元组或一个与loop_vars具有相同特性(长度和结构)和类型的张量列表。loop_vars是一个(可能是嵌套的)元组、命名元组或张量列表，它同时传递给cond和body。cond和body都接受与loop_vars一样多的参数。除了常规张量或索引片之外，主体还可以接受和返回TensorArray对象。TensorArray对象的流将在循环之间和梯度计算期间适当地转发。注意while循环只调用cond和body一次(在调用while循环的内部调用，而在Session.run()期间根本不调用)。while loop使用一些额外的图形节点将cond和body调用期间创建的图形片段拼接在一起，创建一个图形流，该流重复body，直到cond返回false。为了保证正确性，tf.while循环()严格地对循环变量强制执行形状不变量。形状不变量是一个(可能是部分的)形状，它在循环的迭代过程中保持不变。如果循环变量的形状在迭代后被确定为比其形状不变量更一般或与之不相容，则会引发错误。例如，[11,None]的形状比[11,17]的形状更通用，而且[11,21]与[11,17]不兼容。默认情况下(如果参数shape_constant没有指定)，假定loop_vars中的每个张量的初始形状在每次迭代中都是相同的。shape_constant参数允许调用者为每个循环变量指定一个不太特定的形状变量，如果形状在迭代之间发生变化，则需要使用该变量。tf.Tensor。体函数中也可以使用set_shape函数来指示输出循环变量具有特定的形状。稀疏张量和转位切片的形状不变式特别处理如下:

04

模型优化4. 正则化+数据增强 Mixup Family代码实现

前三章我们陆续介绍了半监督和对抗训练的方案来提高模型在样本外的泛化能力，这一章我们介绍一种嵌入模型的数据增强方案。之前没太重视这种方案，实在是方法过于朴实。。。不过在最近用的几个数据集上mixup的表现都比较哇塞，所以我们再来聊聊~

02

RNN-RBM for music composition 网络架构及程序解读

RNN(recurrent neural network)是神经网络的一种，主要用于时序数据的分析，预测，分类等。 RNN的general介绍请见下一篇文章《Deep learning From Image to Sequence》。本文针对对deep learning有一点基础（神经网络基本training原理，RBM结构及原理，简单时序模型）的小伙伴讲一下Bengio一个工作(RNNRBM)的原理和实现。本文重点内容：针对RNN（recurrent neural network）一个应用：music

04

GhostSR|针对图像超分的特征冗余，华为诺亚&北大联合提出GhostSR

paper: https://arxiv.org/abs/2101.08525 【导读】本文是华为诺亚&北大提出的一种轻量化图像超分的方案，它结合了GhostNet中的特征融合思想，同时考虑了图像超分任务的特殊性(不能直接移除冗余特征)，提出了通过shift操作来生成这类“幽灵特征”，在降低计算量、参数量、推延迟的同时确保性能不显著下降。这里所提出的GhostSR一种通用性的轻量化方案，相比剪枝等技术，该技术可以在性能几乎无损的约束下带来显著的推理速度提升、参数量降低、计算量降低。

02

模型压缩部署神技 | CNN与Transformer通用，让ConvNeXt精度几乎无损，速度提升40%

深度神经网络（DNNs）在各种任务上取得了显著的进展，在工业应用中取得了显著的成功。在这些应用中，模型优化的追求突出地表现为一个普遍的需求，它提供了提高模型推理速度的潜力，同时最小化精度折衷。这一追求包括各种技术，尤其是模型削减、量化以及高效模型设计。高效模型设计包括神经架构搜索（NAS）和手工设计方法。模型削减已成为工业应用中优化模型的主要策略。作为主要加速方法，模型削减关注于有意去除冗余权重，同时保持准确性。

01

卷积神经网络学习路线（十一）| Stochastic Depth（随机深度网络）

开篇的这张图代表ILSVRC历年的Top-5错误率，我会按照以上经典网络出现的时间顺序对他们进行介绍，同时穿插一些其他的经典CNN网络。

02

如何用keras实现deepFM

一些前面说明实现基本完全基于文末列出的deepFM 原文（还有几处或者更多地方可以优化，比如二次项多值输入的处理，样本编码等等）文末参考的文章用Keras实现一个DeepFM 是我们初期学习和搭建deepFM 的主要参考。然后下面我们的实现会比参考内容更简单而且有一些处理上的差异。同时在我们的业务数据集上，下面我们自己的实现方式得到的测试 auc 大约都比按照上面文章的实现测试 auc 高约 0～0.01 左右。（当然这里可能有各种原因导致的差异，并不能说下面的实现是绝对优于参考文章的）下面的内

03

如何用keras实现deepFM

deepFM 的发展史我们也不多介绍，目前我们也主要用于做 ctr cvr 预测。

01

深度学习前置知识

由于单层的感知机模型的表达能力很差，只能表示线性模型，连最简单的 XOR 函数模型都无法表示，所以出现了多层感知机模型，加入了隐藏层，最简单的多层感知机模型有三层，分别为输入层、隐藏层、输出层，其中隐藏层的元素个数和层数是超参数（即自定义的），如下图所示：

03

深度学习实践篇[17]：模型压缩技术、模型蒸馏算法：Patient-KD、DistilBERT、DynaBERT、TinyBERT

理论上来说，深度神经网络模型越深，非线性程度也就越大，相应的对现实问题的表达能力越强，但相应的代价是，训练成本和模型大小的增加。同时，在部署时，大模型预测速度较低且需要更好的硬件支持。但随着深度学习越来越多的参与到产业中，很多情况下，需要将模型在手机端、IoT端部署，这种部署环境受到能耗和设备体积的限制，端侧硬件的计算能力和存储能力相对较弱，突出的诉求主要体现在以下三点：

03

TeaForN：让Teacher Forcing更有"远见"一些

本文介绍Google新提出的一种名为"TeaForN"的缓解Exposure Bias现象的方案，来自论文《TeaForN: Teacher-Forcing with N-grams》，它通过嵌套迭代的方式，让模型能提前预估到后N个token（而不仅仅是当前要预测的token），其处理思路上颇有可圈可点之处，值得我们学习

02

Pytorch 固定部分参数训练

我们经常会用到预训练模型，并在预训练模型的基础上添加额外层。训练时先将预训练层参数固定，只训练额外添加的部分。本文记录 Pytorch 相关操作。固定参数固定参数即网络训练时不改变该部分的权重，而更新指定层的参数 pytorch 固定参数主要通过两个设置完成将 tensor 的 requires_grad 属性设置为 False 仅将该属性设置为 False 网络仍会训练并修改参数，还需要堆 optimizer 的输入参数进行过滤在 optimizer 中过滤需要更新的变量

01

【排序学习】基于Pairwise和Listwise的排序学习

导语 PaddlePaddle提供了丰富的运算单元，帮助大家以模块化的方式构建起千变万化的深度学习模型来解决不同的应用问题。这里，我们针对常见的机器学习任务，提供了不同的神经网络模型供大家学习和使用。本周推文目录如下：周一：【点击率预估】 Wide&deep 点击率预估模型周二：【文本分类】基于DNN/CNN的情感分类周三：【文本分类】基于双层序列的文本分类模型周四：【排序学习】基于Pairwise和Listwise的排序学习周五：【结构化语义模型】深度结构化语义模型排序学习(Lear

干货 | Google发布官方中文版机器学习术语表

本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。本文中每个释义中的加粗概念都可以在本文中检索到。建议收藏~ A/B 测试 (A/B testing) 一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较，但也适用于任意有限数量的技术和衡量方式。准确率 (accuracy) 分类模型的正确预测所占的比

03

深度学习笔记-深度学习实战

深度学习实战前面总结了吴恩达的深度学习课程笔记，博主把后续的深度学习课程笔记总结记录到个人博客里面，以供学习和交流使用。今天总结的是深度学习的超参数调试、正则化和梯度检验。改善神经网络依次通过数

06

Google 发布官方中文版机器学习术语表

一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较，但也适用于任意有限数量的技术和衡量方式。

01

使用已经得到的keras模型识别自己手写的数字方式

对于如何训练一个识别手写数字的神经网络，网上资源十分丰富，并且能达到相当高的精度。但是很少有人涉及到如何将图片输入到网络中并让已经训练好的模型惊醒识别，下面来说说实现方法及注意事项。

02

Google发布的机器学习术语表 (中英对照）

一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较，但也适用于任意有限数量的技术和衡量方式。

01

ED-NeRF:基于隐空间NeRF的3D场景高效文本引导编辑

近年来，在神经网络中嵌入 3D 图像的神经隐式表示法的发展取得了显著进展。这一进步使得只使用一组有限的训练视角就能从各个角度渲染图像成为可能。从使用简单的 MLP 网络训练的 NeRF 开始，人们提出了各种基于先进网络架构或改进编码的改进技术。

03

动态权重之多任务不平衡论文 (一)

论文标题: Adaptively Weighted Multi-task Deep Network for Person Attribute Classification

03

Bag of Tricks for Image Classification with Convolutional Neural Networks

这篇文章来自李沐大神团队，使用各种CNN tricks，将原始的resnet在imagenet上提升了四个点。记录一下，可以用到自己的网络上。如果图片显示不了，点击链接观看

03

keras load model时出现Missing Layer错误的解决方式

经过debug分析，原因出在model建立过程中前面lambda层的inbound_node列表中含有后面层，因此从上到下load时，会找不到后面层。重新建立一次model，然后用model.summary() 可以看出其中的原因。

01

深度学习: Regularization (正则化)

正则化，regularization，也即约束。是防止过拟合的诸多手段之一，很常用。

04

【Keras】Keras使用进阶

通常用keras做分类任务的时候，一张图像往往只对应着一种类别，但是在实际的问题中，可能你需要预测出一张图像的多种属性。例如在pyimagesearch的《multi-label-classification-with-keras》这篇文章中提出了一个衣服数据集，整个数据集有两种属性，一种是颜色(blue, red, black)，另一种是衣服的类型(dress, jeans, shirt) 。如假设one-hot-vector编码顺序是(blue, red, black, dress, jeans, shirt)则black jeans的 label就是[0,0,1,0,1,0]。

02

[源码解析] 深度学习流水线并行Gpipe(1)---流水线基本实现

GPipe是一个基于 Lingvo （Lingvo 是 Google 基于 TensorFlow 二次开发的重点针对序列模型的框架）开发的，支持超大规模模型的神经网络训练并行库，本文介绍其基本功能和流水线机制。

02

小目标检测新方法SCTransNet | 空间通道交叉Transformer & 互补前馈达成完美语义信息传递

SCTransNet有效地编码了目标与背景之间的语义差异，从而提升了其内部表征，以准确检测小红外目标。在三个公开数据集NUDT-SIRST、NUAA-SIRST和IRSTD-1k上的大量实验表明，所提出的SCTransNet优于现有的IRSTD方法。代码：https://github.com/xdFai

01

一种巧妙且简单的数据增强方法 - MixUp 小综述

Mixup 是⼀种简单且有效的数据增强⽅法，⾃2018年MIT和facebook提出之后，⽆论在业界还是在学术界都有了很强的地位，成为⼤家的⼀种标配。下⾯就从开⼭之作逐步简单的介绍下如何在NLP领域使⽤的吧。

03

NFNet：NF-ResNet的延伸，不用BN的4096超大batch size训练 | 21年论文

论文: High-Performance Large-Scale Image Recognition Without Normalization

01

基于GANs的非配对学习用于图像增强

论文链接：http://openaccess.thecvf.com/content_cvpr_2018/papers/Chen_Deep_Photo_Enhancer_CVPR_2018_paper.pdf 实验demo: http://www.cmlab.csie.ntu.edu.tw/project/Deep-Photo-Enhancer/

02

机器学习经典问题：如何理解欠拟合和过拟合问题

从数学和统计学的角度来理解过拟合和欠拟合，我们需要考虑模型的参数数量和拟合数据的程度。

05

【学术】谷歌AI课程附带的机器学习术语整理（超详细！）

AiTechYun 编辑：xiaoshan 为了帮助大家更好的了解机器学习，谷歌在上周推出了一系列免费的AI课程，同时还附带了一个详细地机器学习术语库。本术语库中列出了一般的机器学习术语和 Tens

07

【官方中文版】谷歌发布机器学习术语表（完整版）

【新智元导读】Google 工程教育团队已经发布了多语种的 Google 机器学习术语表，该术语表中列出了一般的Machine Learning术语和 TensorFlow 专用术语的定义。语言版本包

05

Google发布机器学习术语表 (包括简体中文)

Google 工程教育团队已经发布了多语种的 Google 机器学习术语表，该术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。语言版本包括西班牙语，法语，韩语和简体中文。 h

06

YOLOX-ViT来啦｜怎么才有效？YOLOX与Transformer用知识蒸馏交出完美答卷

在过去的几十年里，探索海洋环境的兴趣日益增长，这导致了水下活动范围的扩大，如基础设施开发[1]和考古探索[2]。由于水下条件的不可预测和通常是未知的特点，自主水下航行器（AUVs）在执行从调查到维护等各种任务中变得至关重要。AUVs能够根据预定义计划进行数据收集和执行水下操作。

01

深度神经网络（DNN）的正则化

和普通的机器学习算法一样，DNN也会遇到过拟合的问题，需要考虑泛化，这里我们就对DNN的正则化方法做一个总结。

01

Google发布机器学习术语表 (中英对照）

来源 | TensorFlow Google 工程教育团队已经发布了多语种的 Google 机器学习术语表，该术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。语言版本包括西班

03

机器学习术语表机器学习术语表

https://developers.google.com/machine-learning/crash-course/glossary 机器学习术语表本术语表中列出了一般的机器学习术语和 TensorFlow 专用术语的定义。 A A/B 测试 (A/B testing) 一种统计方法，用于将两种或多种技术进行比较，通常是将当前采用的技术与新技术进行比较。A/B 测试不仅旨在确定哪种技术的效果更好，而且还有助于了解相应差异是否具有显著的统计意义。A/B 测试通常是采用一种衡量方式对两种技术进行比较，但

07

资料 | Google发布机器学习术语表 (中英对照）

源 | TensorFlow 回复 20180320 下载PDF版 Google 工程教育团队已经发布了多语种的 Google 机器学习术语表，该术语表中列出了一般的机器学习术语和 TensorFlo

08

machine learning 之 Neural Network 3

整理自Andrew Ng的machine learning课程week6. 目录： Advice for applying machine learning （Decide what to do next） Debugging a learning algorithm machine learning diagnostic Evaluating a hypothesis Model selection and Train / validation / test set Bias and Variance

05

Deblurring with Parameter Selective Sharing and Nested Skip Connections

动态场景去模糊是一项具有挑战性的低水平视觉任务，其中空间变异模糊是由相机抖动和物体运动等多种因素造成的。最近的研究取得了重大进展。通过与参数无关方案和参数共享方案的比较，提出了一种通用的、有效的选择性共享方案，给出了约束去模糊网络结构的一般原则。在每个尺度的子网中，我们提出了一种非线性变换模块的嵌套跳跃连接结构来代替堆叠的卷积层或剩余块。此外，我们建立了一个新的大的模糊/锐化图像对数据集，以获得更好的恢复质量。综合实验结果表明，本文提出的参数选择共享方案、嵌套式跳跃连接结构和新数据集对建立动态场景去模糊新技术具有重要意义。

01

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭