在昨天的文章中,我们介绍了TensorFlow 2.0的初学者教程中实现一个基本神经网络的知识,今天我们继续昨天没有聊完的话题。开始学习吧~
Seq2Seq,全称Sequence to Sequence。它是一种通用的编码器——解码器框架,可用于机器翻译、文本摘要、会话建模、图像字幕等场景中。Seq2Seq并不是GNMT(Google Neural Machine Translation)系统的官方开源实现。框架的目的是去完成更广泛的任务,而神经机器翻译只是其中之一。在循环神经网络中我们了解到如何将一个序列转化成定长输出。在本文中,我们将探究如何将一个序列转化成一个不定长的序列输出(如机器翻译中,源语言和目标语言的句子往往并没有相同的长度)。
一般而言,AI模型的大小与其训练时间相关,因此较大的模型需要更多的时间来训练。通过修剪可以优化数学函数(或神经元)之间的连接,从而减小其整体尺寸而不会影响准确性,但是训练之后才能进行修剪。
在第四章中,我们学习了如何创建一个识别图像的神经网络。我们能够在区分 3 和 7 方面达到 98%以上的准确率,但我们也看到 fastai 内置的类能够接近 100%。让我们开始尝试缩小这个差距。
目前神经网络为很多业务带来了巨大的提升,但是对于神经网络的解释性,以及在某些表格数据的效果不如树模型依旧存在很多可以研究的方向,今天就看看Netflix如何基于GBDT的思想来设计梯度提升决策树网络,文章简单,idea也很有启发。大家做数据问题或者竞赛的时候也可以尝试尝试这种方案!
理解序列数据 —— 如语言、音乐或视频 —— 是一项具有挑战性的任务,特别是当它依赖于大量的周围环境时。例如,如果一个人或一个物体在视频中消失,很久以后又重新出现,许多模型就会忘记它的样子。在语言领域,长短时记忆(LSTM)神经网络覆盖了足够的上下文来逐句翻译。在这种情况下,上下文窗口(在翻译过程中需要考虑的数据范围),从几十个词到大约 100 个词不等。最新的 Transformer 模型不仅改进了逐句翻译的性能,还可以通过多文档摘要生成整个 Wikipedia 的文章。这是可能的,因为 Transformer 使用的上下文窗口可以扩展到数千个单词。有了这样一个大的上下文窗口,Transformer 可以用于文本以外的应用,包括像素或音符,使其能够用于生成音乐和图像。
车道线分割由于其在驾驶辅助系统和自动驾驶车辆中的应用,近年来越来越受到关注。此视觉任务旨在定位道路场景图像中的车道。车道的精确位置有利于下游任务,如在车道内定位汽车、车道偏离检测和轨迹规划。
大数据文摘授权转载自AI科技评论 作者:李梅、黄楠 编辑:陈彩娴 过去十年,深度学习取得了惊人的胜利,用大量参数和数据做随机梯度下降的方法已经被证明是有效的。而梯度下降使用的通常是反向传播算法,所以一直以来,大脑是否遵循反向传播、是否有其它方式获得调整连接权重所需的梯度等问题都备受关注。 图灵奖得主、深度学习先驱 Geoffrey Hinton 作为反向传播的提出者之一,在近年来已经多次提出,反向传播并不能解释大脑的运作方式。相反,他正在提出一种新的神经网络学习方法——前向-前向算法(Forward‑For
在未来万亿参数网络只消耗几瓦特的新型硬件上,FF 是最优算法。 作者 | 李梅、黄楠 编辑 | 陈彩娴 过去十年,深度学习取得了惊人的胜利,用大量参数和数据做随机梯度下降的方法已经被证明是有效的。而梯度下降使用的通常是反向传播算法,所以一直以来,大脑是否遵循反向传播、是否有其它方式获得调整连接权重所需的梯度等问题都备受关注。 图灵奖得主、深度学习先驱 Geoffrey Hinton 作为反向传播的提出者之一,在近年来已经多次提出,反向传播并不能解释大脑的运作方式。相反,他正在提出一种新的神经网络学习方法——
【导读】本篇文章将介绍如何使用Keras(一个非常受欢迎的神经网络库来构建一个Chatbot)。首先我们会介绍该库的主要概念,然后将逐步教大家如何使用它创建“是/否”应答机器人。我们将利用Keras来实现Sunkhbaatar等人的论文“End to End Memory Networks”中的RNN结构。
我们需要下载 Docker 才能安装它,在本节中,您将看到我们如何在 Windows 上安装 Docker 并使用适合在 Linux 上安装的脚本。
通过使用优化的数据增强方法,在CIFAR-10、CIFAR-100、SVHN和ImageNet上得到了目前最好的结果。您可以从这里找到和使用它们。
在解释两者之间的关系之前,我们必须从宏观的角度了解互联网的整个交互模型。因为当了解互联网在大体上是如何运作时,我们才能了解HTTP和TCP存在的意义,包括他们所要解决的问题是。
损失函数在模型的性能中起着关键作用。选择正确的损失函数可以帮助你的模型学习如何将注意力集中在数据中的正确特征集合上,从而获得最优和更快的收敛。
计算机本身很棒,原因有很多,但是大多数计算机在相互连接时才真正开始运行。无论是发送电子邮件,流式传输电视节目,还是与世界另一端的人玩游戏,计算机都必须与他人链接才能执行此操作。要做到这一点,计算机必须知道如何与网络上的其他计算机进行通信。这就是TCP / IP的用武之地。
来源 | Data Science from Scratch, Second Edition 作者 | Joel Grus 全文共6778字,预计阅读时间50分钟。 深度学习 1. 张量 2. 层(Layer)的抽象 3. 线性层 4. 神经网络作为一个层的序列 5. 损失和优化 6. 示例:XOR 重新实现 7. 其他激活函数 8. 示例:重新实现 FizzBuzz 9. softmax 和交叉熵(cross-entropy) 10. Dropout 11. 例子:MNIST 12
蒸馏模型是一种将知识从教师网络(teacher)传递到学生网络(student)的有效且广泛使用的技术。通常来说,蒸馏模型是从功能强大的大型网络或集成网络转移到结构简单,运行快速的小型网络。本文决定打破这种预先定义好的“强弱关系”,提出了一种深度相互学习策略(deep mutual learning, DML)。
GPT-4的发布给ChatGPT带来了又一次飞跃,ChatGPT不仅支持文字输入,还能看得懂图片、甚至是漫画、梗图,以GPT-4为代表的多模态大模型非常强大。多模态大模型就是指模型可以处理多种结构/类型的数据,例如GPT-4,它既可以处理你输入的文本,也可以处理你上传的图片。
在 AAAI 2021 图深度学习 Workshop 上,来自斯坦福大学的著名学者 Jure Leskovec 发表了题为「Design Space for Graph Neural Networks」的主题演讲,介绍了其团队近期为推动图学习社区发展所做出的两项奠基性工作:Open Graph Benchmark 以及「图神经网络的设计空间」。该工作由 Jure Leskovec 和其团队的成员 Jiaxuan You 等人共同完成。
可视化神经网络总是很有趣的。例如,我们通过神经元激活的可视化揭露了令人着迷的内部实现。对于监督学习的设置,神经网络的训练过程可以被认为是将一组输入数据点变换为可由线性分类器分离而表示的函数。所以,这一次,我打算通过利用这些(隐藏的)的表示来产生可视化,从而为这个训练过程带来更多内部细节。这种可视化可以揭示和神经网络性能相关的有趣的内部细节。
【新智元导读】用于训练深度神经网络的反向传播(BP)算法,在生物学上不具有合理性。本研究提出了一种生物学上合理的计算机认知模型,并继而提出了双向反馈比对(bidirectional feedback alignment,BFA)和双向直接反馈比对(bidirectional direct feedback alignment,BDFA)模型,分别用针对前向和后向进程的两组可训练权重连接神经元。初步结果表明,研究提出的模型在 MNIST 和 CIFAR-10 数据集上优于其他和BP类似的不对称方法。 反向传
今天给大家介绍ACL 2022的一篇文章bert2BERT: Towards Reusable Pretrained Language Models(ACL 2022),这是一篇研究如何将small-size的预训练语言模型的参数迁移到large-size模型的工作。小模型和大模型相比,每层的参数矩阵维度不一样,模型的深度也不一样,如何才能实现迁移呢?这篇文章会重点介绍bert2BERT,也会顺带梳理一下小模型向大模型迁移的历史工作。
选自Uber 作者:Mengye Ren、Andrei Pokrovsky、Bin Yang、Raquel Urtasun 机器之心编译 参与:Panda 自动驾驶系统有非常高的实时性需求。近日,Uber 的研究人员提出了一种可以在改善检测准确度的同时极大提升速度的算法 SBNet 并在其工程开发博客上对该研究进行了介绍。机器之心对该介绍文章进行了编译,更多详情请参阅原论文。另外,本项目的代码也已在 GitHub 上发布。 论文地址:https://arxiv.org/abs/1801.02108 代码地址
在第2章中,我们看到了微调和评估一个Transformer所需要的东西。 现在让我们来看看它们在引擎盖下是如何工作的。 在本章中,我们将探讨Transformer模型的主要组件以及如何使用PyTorch实现它们。 我们还将提供关于如何在TensorFlow中做同样事情的指导。 我们将首先专注于建立注意力机制,然后添加必要组件,使Transformer编码器工作。 我们还将简单了解一下编码器和解码器模块之间的结构差异。 在本章结束时,你将能够自己实现一个简单的Transformer模型!
本课程由CodingTheSmartWay.com出品,在本系列的第一部分中,你将学到:
生成星系图像,创作莎士比亚风格的作品,将地震预测时间准确度提高50000%,这些事情有什么共同之处吗?
目标跟踪是计算机视觉的一项基础视觉任务,由于计算机视觉的快速发展,单模态 (RGB) 目标跟踪近年来取得了重大进展。考虑到单一成像传感器的局限性,我们需要引入多模态图像 (RGB、红外等) 来弥补这一缺陷,以实现复杂环境下全天候目标跟踪。
这篇文章中,作者通过将生成对抗网络(GANs,以下均简称GANs)运用到图片生成任务中向我们解释了其的原理。GANs是无监督学习中少有的成功的技术,一经提出,将生成任务推动到了新的高度上。在多样的图片生成任务中,GANs独领风骚。Yann LeCun(深度学习的先驱)将GANs称作“近十年以来机器学习中最优秀的想法”。最重要的是,在显著的性能的同时,GANs的核心思想又是那么地浅显易懂。本文在图片生成的任务重向读者们揭开了GANs的神秘面纱,以下是本文的主要内容:
本文作者Christopher Olah是Google Brain的研究科学家,她在文中图文并茂地解释了什么是LSTM网络,为什么要用LSTM网络,以及LSTM的核心思想,并通过分步详解的形式让读者更容易接受和理解这些概念。 在文章末尾,作者有一个思考:虽然LSTM使得我们在使用RNN能完成任务上迈进了一大步,但还会有下一个大进步吗? 对此你是怎么看的呢? 作者 | Christopher Olah 译者 | 于乃通 循环神经网络(RNN) 人们的每次思考并不都是从零开始的。比如说你在阅读这篇文章时,你
介绍2篇ICLR 2021的文章,其均尝试将传统机器学习方法(如AdaBoost和GBDT)与GNN结合,非常好玩~ 尽管看起来像是A+B式的创新论文,看了之后感觉还是有点东西的~
选自Stats and Bots 作者:Neelabh Pant 机器之心编译 参与:刘晓坤、蒋思源 在这篇文章中,我们将通过 LSTM 讨论时序预测模型,数据科学家 Neelabh Pant 也会为大家描述他利用循环神经网络预测货币兑换汇率的经验。 作为一个在美国生活的印度人,Neelabh 和家乡之间存在恒定的金钱流动。如果在市场中,美元更加强势,则印度卢比相对贬值,因此从印度购买 1 美元需要更多的卢比。如果美元相对弱势,则购买 1 美元需要的卢比会更少。 如果可以预测第二天的美元的价值,那么可以以此
来源:专知本文为论文介绍,建议阅读5分钟在本文中,我对图的可泛化神经网络提出了各种理论和经验分析。 基于图的深度学习已经在各种工业环境和应用中取得了成功。然而,由于来自不同领域的图可能表现出不同的属性,并且可能具有显著的噪声,深度模型很难实现泛化。这些挑战限制了图模型在各个领域的使用。 在本文中,我对图的可泛化神经网络提出了各种理论和经验分析。我考虑了图神经网络(GNNs)的两种类型的泛化能力:(1)数据泛化能力,其中图模型具有有效处理具有不同属性的各种图的表达能力;(2)规模泛化性,图模型可以从小规模的
在本课程中,我们将介绍神经网络的基础知识以及如何建立深度学习编程环境。 我们还将探讨神经网络的常见组件及其基本操作。 我们将通过探索使用 TensorFlow 创建的训练有素的神经网络来结束本课程。
循环神经网络(RNN) 人们的每次思考并不都是从零开始的。比如说你在阅读这篇文章时,你基于对前面的文字的理解来理解你目前阅读到的文字,而不是每读到一个文字时,都抛弃掉前面的思考,从头开始。你的记忆是有持久性的。 传统的神经网络并不能如此,这似乎是一个主要的缺点。例如,假设你在看一场电影,你想对电影里的每一个场景进行分类。传统的神经网络不能够基于前面的已分类场景来推断接下来的场景分类。 循环神经网络(Recurrent Neural Networks)解决了这个问题。这种神经网络带有环,可以将信息持久化。在
图神经网络或简称 GNN 是用于图数据的深度学习 (DL) 模型。这些年来它们变得很热。这种趋势在 DL 领域并不新鲜:每年我们都会看到一个新模型的脱颖而出,它要么在基准测试中显示最先进的结果,要么是一个全新的机制/框架到已经使用的模型中(但是你阅读论文时会感到很简单)。这种反思让我们质疑这种专门用于图形数据的新模型存在的原因。
为了处理极其复杂的问题,例如图像的识别或对人类语言的理解,大概已知功能的数学模型通常是不够的(欠拟合问题)。
在这篇教程中,我们将介绍如何将深度学习技术应用到情感分析中。该任务可以被认为是从一个句子,一段话,或者是从一个文档中,将作者的情感分为积极的,消极的或者中性的。 这篇教程由多个主题组成,包括词向量,循环神经网络和 LSTM。文章的最后给出完整的代码可以通过回复公众号"LSTM"获取。 在讨论具体的概念之前,让我们先来谈谈为什么深度学习适合应用在自然语言处理中。 深度学习在自然语言处理中的应用 自然语言处理是教会机器如何去处理或者读懂人类语言的系统,目前比较热门的方向,包括如下几类: 对话系统 - 比较著名的
选自DL4J 机器之心编译 参与:Nurhachu Null、思源 尽管性能没有流行的生成模型好,但受限玻尔兹曼机还是很多读者都希望了解的内容。这不仅是因为深度学习的复兴很大程度上是以它为前锋,同时它那种逐层训练与重构的思想也非常有意思。本文介绍了什么是受限玻尔兹曼机,以及它的基本原理,并以非常简单的语言描述了它的训练过程。虽然本文不能给出具体的实现,但这些基本概念还是很有意思的。 定义 & 结构 受限玻尔兹曼机(RBM,Restricted Boltzmann machine)由多伦多大学的 Geoff
在深度学习的世界里,大型神经网络因其出色的性能和准确性而备受青睐。然而,这些网络通常包含数百万甚至数十亿个参数,使得它们在资源受限的环境下(如移动设备和嵌入式系统)运行变得不切实际。知识蒸馏(Knowledge Distillation)技术应运而生,旨在解决这一挑战,通过将大型网络的知识“蒸馏”到更小、更高效的模型中,以实现类似的性能,但以更低的计算成本。
不论是各处霸榜的谷歌BERT、OpenAI最近的强大NLP模型GPT-2,还是DeepMind击败星际2顶尖职业玩家的AlphaStar,背后都有 Transformer的身影。
如今,随着数字技术的发展与革新,深度学习在计算机视觉领域上得到越来越广泛应用,并出现在日常工作生活的各个场景之中,如人脸识别、物体的分类与检测等。这些应用都是基于视觉领域单一模态进行的,但其实现实世界并不局限于视觉这单一模态,听觉、语言文字也是现实世界的重要组成部分,仅凭单一模态可能无法对事物类型进行完美的判断。
随着深度学习与大数据的进一步发展,效果好的模型往往有着较大的规模和复杂的结构,往往计算效率与资源使用方面开销很大,无法部署到一些边缘设备、移动终端或者嵌入式设备上。因此,如何在保证模型性能的前提下减少模型的参数量以及加快模型前向传播效率,这是一个重要的问题,总的来说不同的模型压缩与加速技术具体可以分为以下四类:
本次讲习班邀请到了两位在数据挖掘领域数一数二的顶级巨擘:韩家炜教授和 Philip S. Yu 教授。Philip 教授在报告中详细讲解了他多年来所倡导的「广度学习」(Broad Learning)的概念和方法,并用三个相关的研究案例来说明如何将深度学习和广度学习结合起来使用。韩家炜教授则讲述了他在数据挖掘研究中的三步曲:怎么从文本数据中挖掘出隐含的结构;怎么将结构文本转化为网络和 TextCube;最后怎么从网络和 TextCube 中挖掘出 Actionable Knowledge。 Philip S.
选自arxiv 机器之心编译 参与:吴攀、李亚洲、蒋思源 机器翻译一直是人工智能研究领域的重头戏,自去年谷歌推出了神经机器翻译(GNMT)服务以来,相关技术的研发并没有止步不前,在多语言翻译和 zero-shot 翻译上也取得了引人注目的进展。近日,谷歌大脑和英伟达联合发布的一篇论文《序列到序列模型可以直接转录外语语音(Sequence-to-Sequence Models Can Directly Transcribe Foreign Speech)》将机器翻译这方面的研究又向前推进了一步,实现了从一种语
在芯片性能提升有限的今天,分布式训练成为了应对超大规模数据集和模型的主要方法。本文将向你介绍流行深度学习框架 PyTorch 最新版本( v1.5)的分布式数据并行包的设计、实现和评估。
王小新 编译自 GitHub 量子位 出品 | 公众号 QbitAI 把一张图像的特征转移到另一张图像,是个非常一颗赛艇的想法。把照片瞬间变成梵高、毕加索画作风格,想想就很酷。 图1:星空版小狗 文末
人工神经网络(Artificial Neural Network,简称ANN)是一种模仿生物神经网络的算法数学模型,用于进行信息处理和模式识别。
SeFa — Closed-Form Factorization of Latent Semantics in GANs
领取专属 10元无门槛券
手把手带您无忧上云