转移学习以及在深度学习中使用预先训练的模型 使用工具:Keras 级别:高级 在当今世界,用于机器的RAM非常便宜,易于使用,而且投入又少。 如果你需要数百GB的RAM来解决超级复杂的有监督机器学习问题,完全可以考虑自己购买。而另一方面,GPU并不便宜。如果你想使用GPU上100 GB 的VRAM,还得配套其他设备,要付出很高的成本。 本文介绍了如何使用预先训练的模型提出解决方案,如何使用VGG16等预先训练的模型进行图像分类。 人类可以高效完成一项任务,但对计算机来说,很难。当然,计算机可以匹配两个字符串并告诉你是否相同。但是,当你在寻找梅西时,如何让电脑告诉你关于足球或罗纳尔多的事? 答案是为单词创建一个表示形式,捕捉它们的含义,语义关系以及它们所应用的不同类型的上下文。 所有这些都是通过使用“Word嵌入”或“文本数字表示”来实现的。
英伟达说,开发者不用费时费力自己去搭建深度神经网络 (DNN) ,直接对预训练模型做些修改,就可以做出自己的应用。 并且,工具包里的许多模型,都是为某一领域定制的。 所谓迁移学习,是指预训练的模型已经学习到一些特征,我们要把它学到的东西,通过权重,迁移给另外一个神经网络。 用户还可以在工具包提供的原有神经网络上,增加数据,或者增加特征。 英伟达官方总结了六大关键功能: 许多预训练的优化过的领域特定DNN,预先打包在里面; 有计算机视觉中,物体分类、检测的应用示例; 在异构的多GPU环境中,易于做模型适应 (Model Adaptation 两种主要应用 英伟达介绍的两种应用,一是智能视频分析 (IVA) 。 比如,停车管理、物流管理、零售分析等方面都有这样的应用。 工具包里的模型,都是专门用来做IVA推理、并经过透彻训练的。 ? 工具包里的模型,依然是专为这类应用而训练的。 ? 比如,AI辅助人类进行数据标注的SDK,可以加速医学影像的标注过程。 还有,英伟达团队曾经开发过一个3D脑瘤分割模型,叫做BraTS。
想听听你玩转的独门秘籍,更有机械键盘、鹅厂公仔、CODING 定制公仔等你来拿!
这些DNN方法被大量应用在无人驾驶汽车,癌症检测,游戏AI等方面。在许多领域中,DNN目前的准确性已经超过人类。 这意味着创建一个程序,这个程序可以被训练去学习如何去做一些智能的行为,然后这个程序就可以自己完成任务。而传统的人工启发式方法,需要对每个新问题重新设计程序。 高效的机器学习算法的优点是显而易见的。 注意,学习过程是学习刺激导致的权重调整,而大脑组织(可以被认为是程序)并不改变。大脑的这个特征对机器学习算法有很好的启示。 用于确定权重的另一种常用方法是fine-tune,使用预先训练好的模型的权重用作初始化,然后针对新的数据集(例如,传递学习)或新的约束(例如,降低的精度)调整权重。 每个ALU有自己的控制逻辑和本地内存,称为暂存器或注册文件。空间架构主要使用在为DNN专门设计的ASIC中。 ?
这一步被认为对有朝一日实现人类级的机器智能至关重要。 研究人员认为,AI 的未来在于做出一种自动化系统:其可以从任何给定的信息中进行推断,而不依赖于标注的数据集。 SEER 是 SElf-supERvised 的缩写,包含 13 亿个参数,可以从互联网上的任何一组随机图像中学习,而不需要标记数据。 SEER有何创新之处? SwAV 使用了一种聚类技术,可以快速地对来自相似视觉概念的图像进行分组,并利用它们的相似性,与以前最先进的自监督学习相比有了改进,同时所需的训练时间缩短为原来的1/6。 ? Facebook 在博客中写道:自监督学习一直是 Facebook AI 关注的焦点,因为它使机器能够直接从大量可用的信息中学习,而不仅仅是从专门为 AI 研究创建的训练数据中学习。 自监督学习还可以帮助我们在图像或元数据有限的领域(如医学成像)进行专门研究。而且,无需预先进行标记,就可以更快地创建和部署模型,从而能够更快、更准确地响应快速变化的情况。
具体步骤分为七步: 第 1 步:检测人类 第 2 步:检测狗 第 3 步:创建一个CNN 来对狗品种进行分类 第 4 步:使用 CNN 对狗品种进行分类(使用迁移学习) 第 5 步:创建一个CNN来对狗品种进行分类 第3步 创建一个 CNN 来对狗品种进行分类 现在有了在图像中检测人类和狗的功能,必须设计出一种从图像中预测品种的方法。 模型概述 模型编译 模型训练 当前,研究者已经对模型进行了 25 次训练,批量大小为 20。使用的优化器是rmsprop。使用该模型获得的准确度和精密度分别为15.5%和14%。 因为只需要训练最后几层并利用已经训练好的 CNN 模型的权重,在这种情况下是VGG-16。 此外,通过增加训练数据可以使提取的瓶颈特征更完整,并且创建更丰富的图像表示,从而提高准确性。 制作一个狗狗检测器,你学废了吗?
它们为几乎所有现代神经网络应用提供动力 而它们的很多有趣而有力的变种,导致深度学习许多领域取得了巨大进展。 卷积神经网络(CNN) 图像处理是深度学习取得惊人成功的一个领域。 幸运的是,对于过多权重的问题,有一个非常优雅的解决方案:一种特殊的神经网络,或者更确切地说,是一种可以包含在深度神经网络中的特殊类型的层。这种特殊的层是一个所谓的卷积层。 所以,例如,只有当训练数据包含图像的右上角有停车标志时,才会检测图像右上角的停车标志。而CNN可以识别图像中任何位置的物体,无论它在训练图像中处在什么位置。 这点非常重要的,因为它很容易获得几乎无限量的无标签训练数据(无标签图像)用于训练底层。顶层则是通过有监督的机器学习技术(例如反向传播)进行训练。 ? 神经网络是否梦见电子羊? 一个专门训练为检测停车信号的网络对于检测手写数字或猫是没有用的。 通过对训练前的底层进行研究,也就是说研究他们学到的特征是什么样的,我们得到了一个有趣的结果。
这一步被认为对有朝一日实现人类级的机器智能至关重要。 研究人员认为,AI 的未来在于做出一种自动化系统:其可以从任何给定的信息中进行推断,而不依赖于标注的数据集。 经过研究,Facebook 的研究人员发现,扩展 AI 系统以处理复杂图像数据至少需要两个核心部分: 第一为算法,其需要从大量的随机图像中学习,而不需要任何元数据或注释; 第二为卷积网络,ConvNet SwAV 使用了一种聚类技术,可以快速地对来自相似视觉概念的图像进行分组,并利用它们的相似性,与以前最先进的自监督学习相比有了改进,同时所需的训练时间缩短为原来的1/6。 ? Facebook 在博客中写道:自监督学习一直是 Facebook AI 关注的焦点,因为它使机器能够直接从大量可用的信息中学习,而不仅仅是从专门为 AI 研究创建的训练数据中学习。 自监督学习还可以帮助我们在图像或元数据有限的领域(如医学成像)进行专门研究。而且,无需预先进行标记,就可以更快地创建和部署模型,从而能够更快、更准确地响应快速变化的情况。
潜在应用与效果 自动驾驶汽车研究人员和工程师可以实施角落案例框架,为自动驾驶系统开发更集中的训练,因为它有助于解决代表性不足的关键训练数据问题。 潜在应用与效果 多车辆轨迹生成器是自动驾驶开发中的一大进步。不仅是自动驾驶技术能因此获益而加速发展,这一方法同样可以扩展到有类似数据短缺问题的深度学习其他研究领域。 潜在应用与效果 研究人员和开发人员可以将HRNet应用于高级对象检测,动态识别,语义分割,人机交互(HCI),虚拟现实,增强现实,人脸识别及比对,图像识别及分类,翻译以及其他依赖跟踪和识别人类活动而实现服务的应用 我很期待有一天我的智能手机可以告诉我我的举重姿势是否正确。 通过查询图像是否为原始图像的构造或副本,它可用于图像有效性的验证。DRLIH还可用于本地存储或缓存的有效性验证,防止照片重新传输或重复存储,以及目前通过水印实现的版权保护等。
1)OOD检测 OOD数据检测指的是识别不代表训练数据分布的数据样本。不确定性评估与该领域密切相关,模型的自我评估是 OOD 检测的活跃研究领域之一。 有两种数据增强的方法,第一种是data warping增强,专注于获取现有数据并以不影响标签的方式对其进行转换。另一种是oversampling增强,创建可用于增加数据集大小的合成数据。 5)极端情况 Corner Case 检测 虽然手动创建极端案例(例如,构建或重新制定场景)可能更可控,但扩展性的方法还是需要系统地自动化搜索极端案例。 自动Corner Case 检测的一种方法是基于输入数据的转换。另一个研究方向是调查是否构建AI功能输入空间可以支持Corner Case检测。 备注:感谢微信公众号「3D视觉工坊」整理。 DNNs 专门为视频预测设计。从头开始训练,要求序列中训练数据可用。2. 从单步图像预测 DNN 到视频预测 DNN 的转变。通常不需要训练,即模型的现有权重可以不加改变地使用。
除了对数字进行分类学习之外,分类网络同时学习检测早先生成的欺骗性图像,并且学习将这些假图像归入一个专门的类别(因此Softmax将有排在0-9之后的第11个类别)。 替换判别网络为分类网络 经典的GAN模型使用二元判别网络来判断生成的图像是否来自真实训练图像集合。判别函数是一个相对容易的机器学习任务,而且很容易训练。 像素到像素重建错误不是我的菜,因为这不符合人类看待世界的方式。当我们看到一张狗的照片时,我们不会像素到像素地与我们大脑中的记忆比较,以确定照片是否确实是一张关于我们的宠物狗的照片。 如果用于分类图像为前述正确数字的卷积网络分类器也同时学习从图像中提取高层概念和特征,那么使用这个卷积网络来告诉我们图像有多好会比使用像素到像素的重建损失更有意思。 开始的时候,权重被初始化为接近于零的数字,而优化器将惩罚来自正则化的大权重。我认为这是一个明智的训练分类或回归类型问题网络的方法。
在这里真正需要的是通过卷积层捕获的信息。 在预先训练的CNN(例如VGG19网络)中,前16层是卷积层,捕获特征。 ? 这意味着计算网络输出向量与地面实况向量之间的距离非常简单。可以从预先训练好的网络中检索此功能图。根据从中获取特征图的网络部分,输出图像看起来会有所不同。 Johnson等人的论文提出了一个非常聪明的解决方案。创建了一个直接输出风格化图像的神经网络,而不是获取图像并将其优化为风格化。这种流程在两个方面有所不同。 这会产生与输入大小相同的输出。该网络训练有特征重建感知损失,而不是每像素丢失。等等......什么是感性损失? 与更传统的每像素损失相比,它基于从预训练网络提取的高级图像特征表示之间的差异,而不是图像中个体像素的差异。
为了支持这些假设,我们认为通过多层神经元对可信度分配(Credit Assignment)的一系列实现是与我们当前的神经电路知识相兼容的,并且大脑的一些专门系统可以被解释为对特定问题实现有效的优化。 例如,识别面部的区域可以首先使用简单的heuristic来训练以来检测面部,这种heuristic就比如是在直线之上存在两个点,然后进一步训练以使用来自无监督学习的表示结合来自其他与社交奖励处理相关的大脑区域的错误信号来区分显著的面部表情 (C)内部生成的成本函数和错误驱动的神经皮质深层网络经过训练形成包含几个专门系统的较大架构的一部分。 有大量的信息可用于无人监督的学习,但没有理由假设会存在一个通用的无监督算法,无论多么强大,将按人们需要知道的顺序精确学习人类需要知道的事情。 这段读起来非常吃力,但值得注意的是其中提到的只对输出层进行无监督训练的方式,是否一定能使优化变得简单呢?可以尝试做实验验证一下。
所以这里考虑是否做 一个项目专门处理狗,这个项目可能花几个月时间才能将分类狗的算法做好,在狗图片上犯更少的错误,与其做这个项目花几个月时间而且结果未知。 现在把这个神经网络拿出来,将其适应(迁移)到不同任务中所学到的知识,比如放射科诊断: 把神经网络最后的输出层删除 进入到最后一层并将其权重删除 为最后一层重新赋予随机权重 然后将神经网络放在放射诊断数据上训练 所以这种情况下,你需要预先学到很多人类声音的特征,人类语言的组成部分等等知识,可以帮你建立一个很好的唤醒字检测器(wake word detector).即使你的数据集相对较小. ,而不是引入人类的成见. key question 是否使用端到端的算法取决于问题:你是否有大量的的数据能够使系统直接学到从x到y足够复杂的函数.
尽管对此问题进行了数十年的研究,人类专家仍然有必要使用现有的放置工具进行数周的迭代,以产生满足多方面设计标准的解决方案。 在训练中,采用了5个block,每个2000种布局,创建了一个10,000个芯片位置的数据集,其中输入是与给定位置相关的状态,而标签是该位置(线长和拥塞)的奖励。 论文将没有经过精细调优的、经过预先训练的策略网络生成的布局位置称为zero-shot布局。这样的布局可以在不到一秒钟的时间内生成,因为它只需要预先训练的策略网络的单个推理步骤即可。 这样能够灵活地使用预先训练的权重或进一步微调这些权重以针对特定芯片网表的属性进行优化。 通过上述实验结果可以看到,从头开始训练的策略网络需要花费更长的时间才能收敛,即使在24小时之后,结果也要比经过精调的策略网络在12小时之后达到的结果更差,这表明训练形成的网络权重能够实现在较短的时间内为新设计提供高质量的布局的目标
在当前的自然语言处理领域中,也同样普遍存在着不同类型的迁移学习。这大致可以从三个维度进行分类:a)源设置和目标设置是否处理相同的任务;b)源域和目标域是否有相同的属性;c)task学习顺序是否相同。 例如,句子的表达对于单词级别的预测并没有用,而基于词组的预训练对于词组级的预测是重要的。总的来说,为了获得最佳的目标性能,而选择类似的预训练任务是有益的。 当目标任务需要预训练的嵌入有一些交互作用但目前的预训练模型执行不了时,这通常是有帮助的,例如以 BERT 为预训练模型但需要词汇表征或建立跨句子关系模型。 1、要更新哪些权重 对于权重更新,我们可以选择微调或者不微调(预训练权重): a)不要改变预训练的权重(特征提取) 在实际应用中,很多人会在预训练表征的基础上训练一个线性分类器。 此外,修改预训练模型架构的内部结构可能会很困难。 研究者发布的检查点模型 检查点文件通常包含了预训练模型的所有权重。与 Hub 相比,仍然需要创建模型图,需要单独加载模型权重。
编译 | sunlei 发布 | ATYUN订阅号 我们大多数人可能都知道ResNet的成功,它是2015年ILSVRC图像分类、检测和定位的大赢家,也是2015年MS COCO检测和分割的大赢家。 大型人类工程图像分类体系结构 不久之后,我了解到许多工程师和科学家用他们多年的经验建造了这个建筑。还有更多的预感,而不是完整的数学,会告诉你“我们现在需要一个5×5的过滤器,以达到最佳精度”。 这些块由预先定义的操作组成。 ? 块的结构。组合函数只是元素相加。 操作结果表明,图中所示为原论文所使用的图形,可以进行扩展。 ? 在左侧,显示了一个完整的示例。 例如,我们可以构建所有256个单块单元,并测量它们的性能。并用这些数据训练代理模型。然后用这个模型来预测2个block cell的性能而不需要实际的训练和测试。 这意味着一个以α为上层变量,w为下层变量的双层优化问题: α * = argmin L_val(w ∗ (α), α) s.t. w ∗ (α) = argmin L_train(w, α) 训练后,某些边的
我们大多数人可能都知道ResNet的成功,它是2015年ILSVRC图像分类、检测和定位的大赢家,也是2015年MS COCO检测和分割的大赢家。它是一个巨大的体系结构,到处都有跳跃连接。 大型人类工程图像分类体系结构 不久之后,我了解到许多工程师和科学家用他们多年的经验建造了这个建筑。还有更多的预感,而不是完整的数学,会告诉你“我们现在需要一个5×5的过滤器,以达到最佳精度”。 这些块由预先定义的操作组成。 块的结构。组合函数只是元素相加。 操作结果表明,图中所示为原论文所使用的图形,可以进行扩展。 在左侧,显示了一个完整的示例。 例如,我们可以构建所有256个单块单元,并测量它们的性能。并用这些数据训练代理模型。然后用这个模型来预测2个block cell的性能而不需要实际的训练和测试。 每个节点的输出可以用左边的公式计算。以这样的方式枚举节点,即从节点x(i)到x(j)有一条边(i,j),然后i 在连续松弛中,而不是在两个节点之间进行单一操作。使用每个可能操作的凸组合。
腾讯云数据库 MariaDB让您轻松在云端部署、使用 MariaDB 数据库。 云数据库MariaDB提供备份回档、监控、快速扩容、数据传输等MySQL数据库运维全套解决方案,为您简化 IT 运维工作,让您能更加专注于业务发展。
扫码关注腾讯云开发者
领取腾讯云代金券