使用odeint进行手动函数和矩阵乘法时结果的差异 - 腾讯云开发者社区 - 腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

你的batch size是2次方吗？奇葩选手：我用2的8.5次方

---- 新智元报道编辑：LRS 【新智元导读】你的batch size是多少？最近有大佬做实验表示没必要非得2次方，训练速度影响微乎其微，但评论区却吵翻天了！你有没有疑惑过，为啥batch size都是2的幂数？有人觉得是「习惯」，也有人说这算是一种约定俗成的标准，因为从「计算」的角度来看，batch size为2的幂数有助于提高训练效率。但计算机科学就是一门实践的学科，理论再完美也需要实验结果来验证。最近一位AI研究者Sebastian动手试了一下所有的batch size，结果发

02

CUDA驱动深度学习发展 - 技术全解与实战

CUDA（Compute Unified Device Architecture）是由NVIDIA开发的一个并行计算平台和应用编程接口（API）模型。它允许开发者使用NVIDIA的GPU进行高效的并行计算，从而加速计算密集型任务。在这一节中，我们将详细探讨CUDA的定义和其演进过程，重点关注其关键的技术更新和里程碑。

02

您找到你想要的搜索结果了吗？

是的

没有找到

CUDA驱动深度学习发展 - 技术全解与实战

CUDA（Compute Unified Device Architecture）是由NVIDIA开发的一个并行计算平台和应用编程接口（API）模型。它允许开发者使用NVIDIA的GPU进行高效的并行计算，从而加速计算密集型任务。在这一节中，我们将详细探讨CUDA的定义和其演进过程，重点关注其关键的技术更新和里程碑。

02

神经网络中的权重初始化一览：从基础到Kaiming

在进行各种小实验和思维训练时，你会逐步发现为什么在训练深度神经网络时，合适的权重初始化是如此重要。

02

干货 | 携程AI推理性能的自动化优化实践

携程度假AI研发团队致力于为携程旅游事业部提供丰富的AI技术产品，其中性能优化组为AI模型提供全方位的优化方案，提升推理性能降低成本，实现AI技术在旅游场景的成功落地。

04

神经网络中的权重初始化一览：从基础到Kaiming

在进行各种小实验和思维训练时，你会逐步发现为什么在训练深度神经网络时，合适的权重初始化是如此重要。

02

神经网络中的初始化，有几种方法？

在进行各种小实验和思维训练时，你会逐步发现为什么在训练深度神经网络时，合适的权重初始化是如此重要。

00

神经网络中的权值初始化：从最基本的方法到Kaiming方法一路走来的历程

这篇文章通过实验一步一步验证了如何从最基础的初始化方法发展到Kaiming初始化方法，以及这之间的动机。

01

一番实验后，有关Batch Size的玄学被打破了

作者：Sebastian Raschka 机器之心编译编辑：泽南有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种玄

02

神经网络中的权值初始化：从最基本的方法到Kaiming方法一路走来的历程

这篇文章通过实验一步一步验证了如何从最基础的初始化方法发展到Kaiming初始化方法，以及这之间的动机。

03

一番实验后，有关Batch Size的玄学被打破了

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥更好性能，因此设置成 16、32、64、128 … 时，往往要比设置为其他倍数时表现更优。后者是否是一种

RTX 40时代，给深度学习买的显卡居然能保值9年？仔细一算绷不住了

选自timdettmers.com 作者：Tim Dettmers 机器之心编译编辑：泽南 FP8 训练带来的速度提升可能要一统 AI 领域，但这是我要考虑的问题吗？深度学习对于算力的要求很高，对于个人来说，GPU 的选择很大程度上决定了你的工作、学习体验。显卡既贵又复杂，如果想购买新的 GPU，哪些功能最重要？内存、核心、Tensor Core 还是缓存？如何做出性价比高的选择？每出一代新 GPU 这些问题就要重新审视一番。近日，华盛顿大学在读博士 Tim Dettmers 通过一篇长文在 RTX

04

5 个PyTorch 中的处理张量的基本函数

能够以准确有效的方式构建神经网络是招聘人员在深度学习工程师中最受追捧的技能之一。PyTorch 是一个主要用于深度学习的Python 库。PyTorch 最基本也是最重要的部分之一是创建张量，张量是数字、向量、矩阵或任何 n 维数组。在构建神经网络时为了降低计算速度必须避免使用显式循环，我们可以使用矢量化操作来避免这种循环。在构建神经网络时，足够快地计算矩阵运算的能力至关重要。

01

【干货】神经网络初始化trick：大神何凯明教你如何训练网络！

本文通过不同的方法初始化神经网络中的图层权重。通过各种简短的实验和思想练习，我们将逐步发现为什么在训练深度神经网络时足够的重量初始化非常重要。在此过程中，我们将介绍研究人员多年来提出的各种方法，并最终深入研究最适合您且最有可能使用的当代网络架构的方法。

02

如何在GPU上设计高性能的神经网络

gpu对于机器学习是必不可少的。可以通过AWS或谷歌cloud轻松地启动这些机器的集群。NVIDIA拥有业内领先的GPU，其张量核心为 V100和 A100加速哪种方法最适合你的神经网络?为了以最低的

01

一番实验后，有关Batch Size的玄学被打破了

关注并星标从此不迷路计算机视觉研究院公众号ID｜ComputerVisionGzq 学习群｜扫码在主页获取加入方式计算机视觉研究院专栏作者：Edison_G 有关 batch size 的设置范围，其实不必那么拘谨。我们知道，batch size 决定了深度学习训练过程中，完成每个 epoch 所需的时间和每次迭代（iteration）之间梯度的平滑程度。batch size 越大，训练速度则越快，内存占用更大，但收敛变慢。又有一些理论说，GPU 对 2 的幂次的 batch 可以发挥

02

25行代码≈SOTA！OpenAI发布Triton编程语言，比PyTorch快2倍

项目负责人Philippe Tillet表示：「我们的目标是让Triton成为深度学习中CUDA的替代品」。

04

使用 TensorFlow 和 Python 进行深度学习(附视频中字)

TensorFlow是谷歌研发的开源框架。本讲座介绍了如何使用TensorFlow创建深度学习应用程序，以及与其他Python机器学习库进行比较。我叫Ian Lewis，我是谷歌云平台团队的开发者大

09

对矩阵乘法的深入理解

本文是对《机器学习数学基础》第2章2.1.5节矩阵乘法内容的补充和扩展。通过本节内容，在原书简要介绍矩阵乘法的基础上，能够更全面、深入理解矩阵乘法的含义。

02

教程 | 基础入门：深度学习矩阵运算的概念和代码实现

选自Medium 机器之心编译参与：蒋思源本文从向量的概念与运算扩展到矩阵运算的概念与代码实现，对机器学习或者是深度学习的入门者提供最基础，也是最实用的教程指导，为以后的机器学习模型开发打下基础。在我们学习机器学习时，常常遇到需要使用矩阵提高计算效率的时候。如在使用批量梯度下降迭代求最优解时，正规方程会采用更简洁的矩阵形式提供权重的解析解法。而如果不了解矩阵的运算法则及意义，甚至我们都很难去理解一些如矩阵因子分解法和反向传播算法之类的基本概念。同时由于特征和权重都以向量储存，那如果我们不了解矩阵运算

python机器学习：推荐系统实现（以矩阵分解来协同过滤）

我们可以通过为每个用户和每部电影分配属性，然后将它们相乘并合并结果来估计用户喜欢电影的程度。

02

一文读懂深度学习中的各种卷积！！

我们都知道卷积的重要性，但你知道深度学习领域的卷积究竟是什么，又有多少种类吗？研究学者Kunlun Bai发布了一篇介绍深度学习的卷积文章，用浅显易懂的方式介绍了深度学习领域的各种卷积及其优势。

01

JAX介绍和快速入门示例

与 import numpy as np 类似，我们可以 import jax.numpy as jnp 并将代码中的所有 np 替换为 jnp 。如果 NumPy 代码是用函数式编程风格编写的，那么新的 JAX 代码就可以直接使用。但是，如果有可用的GPU，JAX则可以直接使用。

01

python推荐系统实现（矩阵分解来协同过滤）

我们可以通过为每个用户和每部电影分配属性，然后将它们相乘并合并结果来估计用户喜欢电影的程度。

02

python推荐系统实现（矩阵分解来协同过滤）|附代码数据

我们可以通过为每个用户和每部电影分配属性，然后将它们相乘并合并结果来估计用户喜欢电影的程度。

01

python推荐系统实现（矩阵分解来协同过滤）|附代码数据

我们可以通过为每个用户和每部电影分配属性，然后将它们相乘并合并结果来估计用户喜欢电影的程度。

00

用什么tricks能让模型训练得更快？先了解下这个问题的第一性原理

点击上方↑↑↑“OpenCV学堂”关注我来源：公众号机器之心授权深度学习是门玄学？也不完全是。每个人都想让模型训练得更快，但是你真的找对方法了吗？在康奈尔大学本科生、曾在 PyTorch 团队实习的 Horace He 看来，这个问题应该分几步解决：首先，你要知道为什么你的训练会慢，也就是说瓶颈在哪儿，其次才是寻找对应的解决办法。在没有了解基本原理（第一性原理）之前就胡乱尝试是一种浪费时间的行为。在这篇文章中，Horace He 从三个角度分析可能存在的瓶颈：计算、内存带宽和额外开销，并提供了一些

01

JAX介绍和快速入门示例

来源：DeepHub IMBA本文约3300字，建议阅读10+分钟本文中，我们了解了 JAX 是什么，并了解了它的一些基本概念。 JAX 是一个由 Google 开发的用于优化科学计算Python 库：它可以被视为 GPU 和 TPU 上运行的NumPy ， jax.numpy提供了与numpy非常相似API接口。它与 NumPy API 非常相似，几乎任何可以用 numpy 完成的事情都可以用 jax.numpy 完成。由于使用XLA(一种加速线性代数计算的编译器)将Python和JAX代码JI

02

用什么tricks能让模型训练得更快？先了解下这个问题的第一性原理

选自horace博客作者：Horace He 机器之心编译编辑：Juniper 深度学习是门玄学？也不完全是。每个人都想让模型训练得更快，但是你真的找对方法了吗？在康奈尔大学本科生、曾在 PyTorch 团队实习的 Horace He 看来，这个问题应该分几步解决：首先，你要知道为什么你的训练会慢，也就是说瓶颈在哪儿，其次才是寻找对应的解决办法。在没有了解基本原理（第一性原理）之前就胡乱尝试是一种浪费时间的行为。在这篇文章中，Horace He 从三个角度分析可能存在的瓶颈：计算、内存带宽和额外开销

03

用什么tricks能让模型训练得更快？先了解下这个问题的第一性原理

来源：机器之心本文约5200字，建议阅读10+分钟深度学习是门玄学？也不完全是。每个人都想让模型训练得更快，但是你真的找对方法了吗？在康奈尔大学本科生、曾在 PyTorch 团队实习的 Horace He 看来，这个问题应该分几步解决：首先，你要知道为什么你的训练会慢，也就是说瓶颈在哪儿，其次才是寻找对应的解决办法。在没有了解基本原理（第一性原理）之前就胡乱尝试是一种浪费时间的行为。在这篇文章中，Horace He 从三个角度分析可能存在的瓶颈：计算、内存带宽和额外开销，并提供了一些方式去判断当前处于哪

02

Python|详解矩阵乘法

矩阵相信大家都知道，是线性代数中的知识，就是一系列数集。顾名思义，数字组成的矩形，例如：

02

人类反超 AI：DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后，数学家再次刷新

作者 | 李梅、施方圆编辑 | 陈彩娴 10 月 5 日，AlphaTensor 横空出世，DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题，即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数学问题发现新颖、高效且可证明正确的算法的 AI 系统。论文《Discovering faster matrix multiplication algorithms with reinforcement learning》也登上了 Nature 封面。然而，AlphaTenso

02

矩阵求导术（下）

本文承接上篇 https://zhuanlan.zhihu.com/p/24709748，来讲矩阵对矩阵的求导术。使用小写字母x表示标量，粗体小写字母表示列向量，大写字母X表示矩阵。矩阵对矩阵的求导采用了向量化的思路，常应用于二阶方法求解优化问题。

02

img2col 卷积优化讲解

转载：https://juejin.cn/post/7068113084451127333

03

cuBLAS矩阵乘法性能分析（附代码示例）

矩阵乘法是神经网络中最基础、最重要的一个运算。在用CUDA实现矩阵乘法时，不需要我们手动写，cuBLAS库提供了现成的矩阵乘法算子，例如cublasGemmEx和cublasLtMatmul。其中后者是轻量级版本，API调用更灵活。例如对于整数乘法，cublasLtMatmul支持int8的输入输出，而cublasGemmEx只支持int8输入，int32输出。

05

卷积有多少种？一文读懂深度学习的各种卷积

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

02

再谈“卷积”的各种核心设计思想，值得一看！

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

04

一文读懂 12种卷积方法

来源：机器之心本文约7800字，建议阅读15分钟本文归纳总结深度学习中常用的几种卷积，并会试图用一种每个人都能理解的方式解释它们。我们都知道卷积的重要性，但你知道深度学习领域的卷积究竟是什么，又有多少种类吗？研究学者 Kunlun Bai 近日发布一篇介绍深度学习的卷积文章，用浅显易懂的方式介绍了深度学习领域的各种卷积及其优势。鉴于原文过长，机器之心选择其中部分内容进行介绍，2、4、5、9、11、12 节请参阅原文。如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（A

03

人类反超 AI：DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后，数学家再次刷新

大数据文摘转载自AI科技评论作者 | 李梅、施方圆编辑 | 陈彩娴 10 月 5 日，AlphaTensor 横空出世，DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题，即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数学问题发现新颖、高效且可证明正确的算法的 AI 系统。论文《Discovering faster matrix multiplication algorithms with reinforcement learning》也登上了 Nature 封面

01

全网最详细！油管1小时视频详解AlphaTensor矩阵乘法算法

---- 新智元报道编辑：Aeneas David 【新智元导读】为加速矩阵乘法，DeepMind的AlphaTensor都有什么神操作？1小时超长视频，带你读懂这篇Nature封面。由浅入深，全网最细。 DeepMind前不久发在Nature上的论文Discovering faster matrix multiplication algorithms with reinforcement learning引发热议。这篇论文在德国数学家Volken Strassen「用加法换乘法」思路和算法的

03

一文读懂深度学习中的N种卷积

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

00

卷积有多少种？一文读懂深度学习的各种卷积

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

04

【DL】一文读懂深度学习中的N种卷积

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

01

一文读懂深度学习中的N种卷积

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

02

卷积有多少种？一文读懂深度学习中的各种卷积

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

02

【DL】一文读懂深度学习中的N种卷积

如果你听说过深度学习中不同种类的卷积（比如 2D / 3D / 1x1 /转置/扩张（Atrous）/空间可分/深度可分/平展/分组/混洗分组卷积），并且搞不清楚它们究竟是什么意思，那么这篇文章就是为你写的，能帮你理解它们实际的工作方式。

02

每日一题(1)

矩阵相乘最重要的方法是一般矩阵乘积。它只有在第一个矩阵的列（column）和第二个矩阵的行数（row）相同时才有意义。一般单指矩阵乘积时，指的便是一般矩阵乘积。一个m×n的矩阵就是m×n个数排成m行n列的一个数阵。由于它把许多数据紧凑的集中到了一起，所以有时候可以简便地表示一些复杂的模型。

01

使用矩阵运算驱动神经网络数据加工链

对于学过线性代数的人来说，矩阵运算绝对算得上是一场噩梦。特别是做矩阵乘法时，两个大方块，每个方块里面有好多数字，你需要把一个方块中一行里的所有数字跟另一个方块里面的所有数字做乘法，然后再求和，头昏脑涨的算了半天才得到新矩阵的一个数值，忙活了半天，耗费了大量精力后，你发现居然算错了，只能再来一遍，那时候我想你恨不得一把火把代数课本付之一炬。上一节，我们手动计算了一个只有两层，每层只有两个节点的神经网络，那时候的手动计算已经让我们精疲力尽了，试想一下任何能在现实中发挥实用效果的神经网络，例如用于人脸识别的网络

06

DeepMind科学家、AlphaTensor一作解读背后的故事与实现细节

大数据文摘授权转载自智源社区一直以来，DeepMind的Alpha系列工作，AlphaGo、AlphaStar等致力于棋类和游戏应用中战胜人类，而两个月前发布的AlphaTensor则把目标指向了科学计算领域，意在为矩阵乘法等基本计算任务自动设计更高效的经典算法，这一工作一经推出，效果显著，让人眼前一亮，甚至被知名AI主播Lex Fridman评价为值得「诺贝尔奖和菲尔兹奖」的工作。 AlphaTensor是如何做到的？其工作背后的灵感来源是什么？智源社区邀请到该工作第一作者Alhussein Fawzi

01

矩阵乘法无需相乘，速度提升100倍：MIT大佬的新研究引发热议

机器之心报道机器之心编辑部在一篇被 ICML 2021 接收的论文中，MIT 的一位计算机科学博士生及其业界大佬导师为矩阵乘法引入了一种基于学习的算法，该算法具有一个有趣的特性——需要的乘加运算为零。在来自不同领域的数百个矩阵的实验中，这种学习算法的运行速度是精确矩阵乘积的 100 倍，是当前近似方法的 10 倍。矩阵乘法是机器学习中最基础和计算密集型的操作之一。因此，研究社区在高效逼近矩阵乘法方面已经做了大量工作，比如实现高速矩阵乘法库、设计自定义硬件加速特定矩阵的乘法运算、计算分布式矩阵乘法以及在

02

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭