选自arXiv 作者:Yoav Levine等 机器之心编译 参与:吴攀 深度学习和量子物理是两个看似关联很小的领域,但研究者还是找到了它们之间的共同之处。近日,耶路撒冷希伯来大学的几位研究者的一篇论
TensorMask 密集实例分割效果示例。左图:示例图;右图:局部放大。图中可以看到,不仅较大和较小的物体都得到了较为完善的勾画,物体之间相互遮挡的边缘也能够正确地处理。
参考:https://blog.csdn.net/mls0311/article/details/82052472 https://www.w3cschool.cn/tensorflow_python/tensorflow_python-x1yu2mcy.html
当然在 PyTorch 中,转换函数的主要意义主要是用于对进行数据的预处理和数据增强,使其适用于深度学习模型的训练和推理。
拥有两个或两个以上的量子比特的量子系统通常被称为复合系统(composite systems)。单量子比特系统的描述与测量已有所了解,那么多个量子比特的系统该如何描述以及怎样去测量呢?单量子比特系统与多量子比特系统之间又有怎样的关系呢?首先,解决这些问题,需要认识一个新的运算-张量积(tensor products)。
近日,Facebook 发布了一项新的研究,该研究探索了实例分割的新方法。与掩模 R-CNN 驱动的标准方法相比,TunSoMeM 为探索分割研究提供了新的方向。本文是有关这项研究的具体内容。
这些天无论是还是私信,很多人希望看到更多关于深度学习基础内容,这篇文章想要分享的是关于pytorch的转换函数。
1. 数据格式转换: 将不同格式的数据(如PIL图像、NumPy数组)转换为PyTorch张量,以便能够被深度学习模型处理。例如,transforms.ToTensor() 将图像转换为张量。
作者:Xinlei Chen、Ross Girshick、Kaiming He、Piotr Dollar
paper链接:https://arxiv.org/pdf/2405.04437v1
大型语言模型(LLM)具有前所未有的语言理解和生成能力,但是解锁这些高级的能力需要巨大的模型规模和训练计算量。在这种背景下,尤其是当我们关注扩展至 OpenAI 提出的超级智能 (Super Intelligence) 模型规模时,低精度训练是其中最有效且最关键的技术之一,其优势包括内存占用小、训练速度快,通信开销低。目前大多数训练框架(如 Megatron-LM、MetaSeq 和 Colossal-AI)训练 LLM 默认使用 FP32 全精度或者 FP16/BF16 混合精度。
现代实例分割方法主要是先检测对象边界框,然后进行裁剪和分割, Mask R-CNN 是目前这类方法中最优秀的。
torch.autograd is PyTorch’s automatic differentiation engine that powers neural network training. In this section, you will get a conceptual understanding of how autograd helps a neural network train.
Pytorch Autograd库 (自动求导机制) 是训练神经网络时,反向误差传播(BP)算法的核心。
把张量分解成子张量。如果num_or_size_split是一个整数,那么值将沿着维度轴拆分为num_split较小的张量。这要求num_split均匀地分割value.shape[axis]。如果num_or_size_split是一个一维张量(或列表),称之为size_split,值被分割成len(size_split)元素。第i个元素的形状与值的大小相同,除了尺寸为size_split [i]的维度轴。
每天给你送来NLP技术干货! 地址 | https://zhuanlan.zhihu.com/p/69294347作者 | xiaopl@知乎编辑 | 极市平台 PyTorch 作为一个深度学习平台,在深度学习任务中比 NumPy 这个科学计算库强在哪里呢?我觉得一是 PyTorch 提供了自动求导机制,二是对 GPU 的支持。由此可见,自动求导 (autograd) 是 PyTorch,乃至其他大部分深度学习框架中的重要组成部分。 了解自动求导背后的原理和规则,对我们写出一个更干净整洁甚至更高效的 PyT
这篇文章介绍了Auto-Scheduler的一种方法Ansor,这种方法已经被继承到TVM中和AutoTVM一起来自动生成高性能的张量化程序。
https://iamarookie.blog.csdn.net/article/details/117755839
欢迎来到本书的第一部分。在这里,我们将与 PyTorch 迈出第一步,获得理解其结构和解决 PyTorch 项目机制所需的基本技能。
蓝牙信标可以直接向用户推送信息,一旦手机用户进入蓝牙信标的信号覆盖范围内,就可以形成手机端的自动应答机制,无需用户多余的手动操作,即可以实现信息接收功能。那我们安装蓝牙信标一般要怎么安装呢?
Parameter sharding 就是把模型参数等切分到各个GPU之上,以此达到使用较少GPU实现大规模模型训练的目的。本系列会以 Google,微软和Facebook的论文,博客以及代码来对parameter sharding 进行分析,大约有 5~6篇文章。
今天是《高效入门Pytorch》的第二篇文章,上一篇我们讲解到《张量解释——深度学习的数据结构》。
在进入正文前,我们先听两段 MusicGen 生成的音乐。我们输入文本描述「a man walks in the rain, come accross a beautiful girl, and they dance happily」
变量跨run()调用在图中维护状态。通过构造类变量的实例,可以向图中添加一个变量。Variable()构造函数需要变量的初值,它可以是任何类型和形状的张量。初值定义变量的类型和形状。构造完成后,变量的类型和形状是固定的。可以使用指定方法之一更改值。如果稍后要更改变量的形状,必须使用带有validate_shape=False的赋值Op。与任何张量一样,使用Variable()创建的变量可以用作图中其他Ops的输入。此外,张量类的所有重载运算符都被传递到变量上,因此您也可以通过对变量进行算术将节点添加到图中。
在真实世界的校园里有学生和老师,学生有学号、姓名、所在班级等属性(数据),还有学习、提问、吃饭和走路等动作(方法)。如果我们要开发一个校园管理系统,那么在构建软件系统时,也会有学生和老师等“类”,张同学、李同学是学生类的个体,被称为“对象”,“对象”也被称为“实例”。
今天来阅读一下最近 OSDI 放出的微软的 Roller 这篇论文,题目为:《Roller: Fast and Efficient Tensor Compilation for Deep Learning》
图神经网络是人工智能的一个热点方向,从图的视角解读大数据,可以灵活建模复杂的信息交互关系,吸引大量学者的关注并在多个工业领域得到广泛应用。
张量是一个多维数组,它是标量、向量和矩阵概念的推广。在深度学习中,张量被广泛用于表示数据和模型参数。
在如上网络中,AlexNet_1与AlexNet_2实现的结果是一致的,但是可以看到将ReLU层添加到网络有两种不同的实现,即nn.ReLU和F.ReLU两种实现方法。
以下场景太过真实,但都是虚构,为了讲清楚理论的过程。如有雷同,纯属我瞎编,还望勿对号入座。
张量表示由一个数值组成的数组,这个数组可能有多个维度。具有一个轴的张量对应数学上的向量(vector);具有两个轴的张量对应数学上的矩阵(matrix);具有两个轴以上的张量没有特殊的数学名称。
(本文章适用于 pytorch0.4.0 版本, 既然 Variable 和 Tensor merge 到一块了, 那就叫 Tensor吧)
TensorFlow 从名称上看就是两个部分——张量 tensor 和流 flow。非常形象的组合。众所周知,矩阵已经成为机器学习中的基础单元,若干的针对矩阵的计算优化使得现如今的机器学习成为可能。而一些矩阵的方法也是一些重要的机器学习算法的基础。张量 就是矩阵概念的推广,其表示更多维度的矩阵。而计算流是一种抽象过程,在如今的深度学习领域,这种一层层地计算可以很形象地看做是张量在计算模型上的流动。而这里的流可以看做是更加一般的计算过程,可以在不同的层级间跨越式流动。 本文作者均来自 Google Resea
Google 2019年发表的论文GPipe: Easy Scaling with Micro-Batch Pipeline Parallelism,1811.06965 (arxiv.org)
前言 项目进度越来越紧,留给自己的业余时间也越来越少。 这次的题目仍来自于平时练手之作,题目1、2、3较为容易,4、5有点难度。 正文 1.Mahmoud and Ehab and the even-odd game 题目链接 题目大意: Mahmoud和Ehab在玩一个数字游戏。有一个整数n,从Mahmoud开始,轮流选择一个数字a,要求: 1 <= a <= n; 如果是Mahmoud选择,a必须是偶数;如果是Ehab选择,a必须是奇数。 选完数字之后,n=n-a; 不能选则输掉游戏。 假设两人
本系列我们开始分析 TensorFlow 的分布式。之前在机器学习分布式这一系列分析之中,我们大多是以 PyTorch 为例,结合其他框架/库来穿插完成。但是缺少了 TensorFlow 就会觉得整个世界(系列)都是不完美的,不单单因为 TensorFlow 本身的影响力,更因为 TensorFlow 分布式有自己的鲜明特色,对于技术爱好者来说是一个巨大宝藏。
NVIDIA Megatron 是一个基于 PyTorch 的分布式训练框架,用来训练超大Transformer语言模型,其通过综合应用了数据并行,Tensor并行和Pipeline并行来复现 GPT3,值得我们深入分析其背后机理。
每个data[i].shape必须从相应的指标[i]开始。形状和其他数据[i]。形状必须是恒定的,也就是说,我们必须有data[i].shape = indices[i].shape + constant。根据这个常数,输出形状是
图神经网络是人工智能的一个热点方向,从图的视角解读大数据,可以灵活建模复杂的信息交互关系,吸引大量学者的关注并在多个工业领域得到广泛应用。 《图深度学习从理论到实践》由浅入深,全面介绍图神经网络的基础知识、典型模型方法和应用实践。《图深度学习从理论到实践》不仅包括一般的深度学习基础和图基础知识,还涵盖了图表示学习、图卷积、图注意力、图序列等典型图网络模型,以京东自研的Galileo平台为代表的图学习框架,以及图神经网络在电商推荐和流量风控方面的两个典型工业应用。 《图深度学习从理论到实践》既适合对数据挖掘、
1. 关于集成学习的概念 集成学习是机器学习中一个非常重要且热门的分支,是用多个弱分类器构成一个强分类器,其哲学思想是“三个臭皮匠赛过诸葛亮”。一般的弱分类器可以由决策树,神经网络,贝叶斯分类器,K-近邻等构成。已经有学者理论上证明了集成学习的思想是可以提高分类器的性能的,比如说统计上的原因,计算上的原因以及表示上的原因。 1.1 为什么要集成 1)模型选择 假设各弱分类器间具有一定差异性(如不同的算法,或相同算法不同参数配置),这会导致生成的分类决策边界不同,也就是说它们在决策时会犯不同的错误。
今天为大家介绍的是来自Yujin Zhang,Jun Jiang,Yi Luo和Wei Hu团队的一篇论文。论文介绍了一个用于预测分子光谱的深度学习模型“DetaNet”。准确高效的分子光谱模拟对物质发现和结构鉴定至关重要。然而,传统的依赖量子化学的方法成本高,效率低。为了解决这个问题,研究者们开发了DetaNet模型,它能够以更高的效率和准确性预测分子光谱。
前面几个小节介绍了 Bagging 集成学习方法。简单来说,Bagging 方式是通过在样本以及特征空间上随机选取样本以及特征的方式来创建诸多差异性的子模型,然后将这些子模型集成在一起。使用 sklearn 实现 Bagging 这种集成学习,使用的基本分类器都是决策树,这种基本分类器使用决策树的集成学习通常被称为随机森林。 随机森林中的每一棵树都是通过随机的方式来训练生成的,因此具有随机性,这么多树放在一起,就形成了一个森林。前面实现的 Bagging Classifier,无论是 random subspaces classifier 还是 random patches classifier,指定的 base_estimator 参数都是 DecisionTreeClassifier(sklearn 封装的决策树类),因此都可以叫做随机森林。
一般来说,大语言模型的部署都会采用「预训练 — 然后微调」的模式。但是,当针对众多任务(如个性化助手)对 base 模型进行微调时,训练和服务成本会变得非常高昂。低秩适配(LowRank Adaptation,LoRA)是一种参数效率高的微调方法,通常用于将 base 模型适配到多种任务中,从而产生了大量从一个 base 模型衍生出来的 LoRA 适配程序。
在教完深度学习系列后,吴恩达 (之后称大神) 最近在继续完成他原来编写的《Machine Learning Yearning》一书 (翻译成机器学习秘籍)。该书现在只完成到第 19 章 (总共有 55 章),我读完目录总结出该书要讲的七个要点,如下:
来源丨https://zhuanlan.zhihu.com/p/694877232
机器之心原创 作者:思 2080Ti 竟然可以当 V100 来用,这个功能有点儿厉害。 自深度学习大潮兴起,模型就朝着越来越大、越来越 「深」 的方向发展。 2012 年,拥有 5 个卷积层的 AlexNet 第一次在视觉任务上展现出强大的能力。在此之后,基础模型就开始「深」化起来:2014 年的 VGG-Net 达到了 19 层;2015 年的 ResNet、2017 年的 DenseNet 更是将深度提升到了上百层。 模型大小的提升极大地提高了性能。因此,各大视觉任务都将 ResNet、DenseNe
https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html 来阅读原文。
说到神经网络训练,大家的第一印象都是 GPU + 服务器 + 云平台。传统的训练由于其巨大的内存开销,往往是云端进行训练而边缘平台仅负责推理。然而,这样的设计使得 AI 模型很难适应新的数据:毕竟现实世界是一个动态的,变化的,发展的场景,一次训练怎么能覆盖所有场景呢?
领取专属 10元无门槛券
手把手带您无忧上云