利用Tensordot复制矩阵-矩阵乘法_使用tensordot进行批量矩阵乘法_利用点积计算向量的乘法矩阵 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

机器学习中数据处理与可视化的python、numpy等常用函数

[阿里DIN] 从模型源码梳理TensorFlow的乘法相关概念

本文基于阿里推荐 DIN 和 DIEN 代码，梳理了下深度学习一些概念，以及TensorFlow中的相关实现。

未来AI计算的方向，是「水芯片」？

机器之心报道编辑：泽南、小舟从工作原理上看，比硅芯片更像人脑了。神经网络计算的未来可能比我们预计的要糟糕一些——不是用电的固体芯片，而是泡在水里。近日，哈佛大学工程与应用科学学院（SEAS）与初创公司 DNA Script 组成的团队成功开发了一种基于水溶液中离子运动的处理器。物理学家们认为，由于更接近大脑传输信息的方式，因此这种设备可能是类脑计算的下一步。「水溶液中的离子电路使用离子作为电荷载体进行信号处理，」研究人员在论文中表示。「我们提出了一种水性离子电路…… 这种能够进行模拟计算的功能性

OpenBLAS项目与矩阵乘法优化 | 公开课+文字转录

提起矩阵计算，学过《高等数学》的人可能都听过，但若不是这个领域的研究者，恐怕也只停在“听过”的程度。在矩阵计算领域，开源项目OpenBLAS影响巨大，除IBM、华为等巨头公司在使用外，还吸引了全球的研究院校、开发者们关注。雷锋网 AI 研习社近日有幸邀请到了澎峰科技创始人、OpenBLAS项目创始人和主要维护者张先轶，他将为我们介绍OpenBLAS开源项目以及矩阵乘法的优化。嘉宾介绍张先轶，中国科学院博士，MIT博士后，OpenBLAS开源项目创始人和主要维护者，PerfXLab澎峰科技创始人。曾

浅谈keras中的batch_dot,dot方法和TensorFlow的matmul

在使用keras中的keras.backend.batch_dot和tf.matmul实现功能其实是一样的智能矩阵乘法，比如A,B,C,D,E,F,G,H，I,J,K,L都是二维矩阵，中间点表示矩阵乘法，AG 表示矩阵A 和G 矩阵乘法（A 的列维度等于G 行维度），WX=Z

RTX 40时代，给深度学习买的显卡居然能保值9年？仔细一算绷不住了

选自timdettmers.com 作者：Tim Dettmers 机器之心编译编辑：泽南 FP8 训练带来的速度提升可能要一统 AI 领域，但这是我要考虑的问题吗？深度学习对于算力的要求很高，对于个人来说，GPU 的选择很大程度上决定了你的工作、学习体验。显卡既贵又复杂，如果想购买新的 GPU，哪些功能最重要？内存、核心、Tensor Core 还是缓存？如何做出性价比高的选择？每出一代新 GPU 这些问题就要重新审视一番。近日，华盛顿大学在读博士 Tim Dettmers 通过一篇长文在 RTX

Android 图形处理 —— Matrix 原理剖析

Android 图形库中的 android.graphics.Matrix 是一个 3×3 的 float 矩阵，其主要作用是坐标变换

反向传播算法推导-卷积神经网络

在SIGAI之前的公众号文章“反向传播算法推导-全连接神经网络”中，我们推导了全连接神经网络的反向传播算法。其核心是定义误差项，以及确定误差项的递推公式，再根据误差项得到对权重矩阵、偏置向量的梯度。最后用梯度下降法更新。卷积神经网络由于引入了卷积层和池化层，因此情况有所不同。在今天这篇文章中，我们将详细为大家推导卷积神经网络的反向传播算法。对于卷积层，我们将按两条路线进行推导，分别是标准的卷积运算实现，以及将卷积转化成矩阵乘法的实现。在文章的最后一节，我们将介绍具体的工程实现，即卷积神经网络的卷积层，池化层，激活函数层，损失层怎样完成反向传播功能。

以3D视角洞悉矩阵乘法，这就是AI思考的样子

如果能以 3D 方式展示矩阵乘法的执行过程，当年学习矩阵乘法时也就不会那么吃力了。

以3D视角洞悉矩阵乘法，这就是AI思考的样子

如果能以 3D 方式展示矩阵乘法的执行过程，当年学习矩阵乘法时也就不会那么吃力了。

文心一言 VS 讯飞星火 VS chatgpt （24）-- 算法导论4.2 6题

Strassen 算法是一种用于矩阵乘法的分治算法，它将原始的矩阵分解为较小的子矩阵，然后使用子矩阵相乘的结果来计算原始矩阵的乘积。

问答 | 如何理解 NVIDIA 新 GPU 架构 Turing 的 Tensor Core？

问：如何理解 NVIDIA 新 GPU 架构 Turing 的 Tensor Core？

PyTorch团队重写「分割一切」模型，比原始实现快8倍

从年初到现在，生成式 AI 发展迅猛。但很多时候，我们又不得不面临一个难题：如何加快生成式 AI 的训练、推理等，尤其是在使用 PyTorch 的情况下。

解析卷积高速计算中的细节，有代码有真相

卷积是深度学习中的基础运算，那么卷积运算是如何加速到这么快的呢，掰开揉碎了给你看。

Archived | 307-09-矩阵

定义矩阵A，B，其中A的大小为a \times b，B的大小为b \times c，对于矩阵C=AB中的每一个元素C(i.j),~i\in [1, a],~j\in [1,c]，存在以下：

比标准Attention提速5-9倍，大模型都在用的FlashAttention v2来了

近来，几种长上下文语言模型陆续问世，包括 GPT-4（上下文长度为 32k）、MosaicML 的 MPT（上下文长度为 65k）Anthropic 的 Claude（上下文长度为 100k）。长文档查询和故事写作等新兴用例已经表明扩展语言模型上下文窗口是非常必要的。

【Python】Numpy使用指南

Numpy是用来存储和处理大型矩阵，比Python自身的嵌套列表结构要高效的多，本身是由C语言开发。这个是很基础的扩展，其余的扩展都是以此为基础。

矩阵乘法的Strassen算法+动态规划算法（矩阵链相乘和硬币问题）

矩阵乘法的Strassen 这个算法就是在矩阵乘法中采用分治法，能够有效的提高算法的效率。先来看看咱们在高等代数中学的普通矩阵的乘法两个矩阵相乘上边这种普通求解方法的复杂度为: O(n3)

反向传播算法推导-卷积神经网络

原创声明：本文为 SIGAI 原创文章，仅供个人学习使用，未经允许，不能用于商业目的。

TPU中的脉动阵列及其实现

本文将对TPU中的矩阵计算单元进行分析，并给出了SimpleTPU中32×32的脉动阵列的实现方式和采用该阵列进行卷积计算的方法，以及一个卷积的设计实例，验证了其正确性。代码地址https://github.com/cea-wind/SimpleTPU/tree/master/lab1

大佬是怎么优雅实现矩阵乘法的？

来源丨https://zhuanlan.zhihu.com/p/383115932

矩阵求导术（下）

本文承接上篇 https://zhuanlan.zhihu.com/p/24709748，来讲矩阵对矩阵的求导术。使用小写字母x表示标量，粗体小写字母表示列向量，大写字母X表示矩阵。矩阵对矩阵的求导采用了向量化的思路，常应用于二阶方法求解优化问题。

鸡兔同笼终于可以靠「猜」了！佐治亚理工学者求解新方法获顶会最佳论文奖

这是《孙子算经》中鸡兔同笼问题的经典描述。我们知道，二元一次方程组可以解决这个问题。求解线性系统有矩阵乘法等多种方法，但或许你不知道，靠「猜」也是可以的。

手撕 | 深度神经网络卷积层计算加速与优化

最后一页没画，但是基本上就是Filter Matrix乘以Feature Matrix的转置，得到输出矩阵Cout x (H x W)，就可以解释为输出的三维Blob（Cout x H x W）。

这是一份文科生都能看懂的线性代数简介

选自Medium 作者：Niklas Donges 机器之心编译参与：Tianci LIU、思源线性代数的概念对于理解机器学习背后的原理非常重要，尤其是在深度学习领域中。它可以帮助我们更好地理解算法内部到底是怎么运行的，借此，我们就能够更好的做出决策。所以，如果你真的希望了解机器学习具体算法，就不可避免需要精通这些线性代数的概念。这篇文章中，我们将向你介绍一些机器学习中涉及的关键线性代数知识。线性代数是一种连续形式的数学，被广泛应用于理工类学科中；因为它可以帮助我们对自然现象建模，然后进行高

010

入门 | 这是一份文科生都能看懂的线性代数简介

选自Medium 作者：Niklas Donges 机器之心编译参与：Tianci LIU、思源线性代数的概念对于理解机器学习背后的原理非常重要，尤其是在深度学习领域中。它可以帮助我们更好地理解算

AlphaTensor横空出世！打破矩阵乘法计算速度50年纪录，DeepMind新研究再刷Nature封面，详细算法已开源

羿阁萧箫发自凹非寺量子位 | 公众号 QbitAI 什么，AI竟然能自己改进矩阵乘法，提升计算速度了？！还是直接打破人类50年前创下的最快纪录的那种。要知道，矩阵乘法可是计算机科学中最基础的数学算法之一，也是各种AI计算方法的基石，如今计算机处理图像语音、压缩数据等全都离不开它。但自从德国数学家沃尔克·施特拉森（Volker Strassen）在1969年提出“施特拉森算法”后，矩阵乘法的计算速度一直进步甚微。现在，这只新出炉的AI不仅改进了目前最优的4×4矩阵解法（50年前由施特拉森提出）

基于GEMM实现的CNN底层算法被改？Google提出全新间接卷积算法

【导读】本文介绍的内容主要聚焦Google 的一项最新工作：改变基于 GEMM 实现的 CNN底层算法提出的新方法。通用矩阵乘法（General Matrix Multiply, GEMM）是广泛用于线性代数、机器学习、统计学等各个领域的常见底层算法，其实现了基本的矩阵与矩阵相乘的功能，因此算法效率直接决定了所有上层模型性能，目前主流的卷积算法都是基于GEMM来实现的。来自谷歌的Peter Vajda在ECV2019中提出了一种全新的间接卷积算法，用于改进GEMM在实现卷积操作时存在的一些缺点，进而提升计算效率。

FlashAttention2详解（性能比FlashAttention提升200%）

来源丨https://zhuanlan.zhihu.com/p/645376942

Tensor Core

Tensor Core，也是Volta架构里面最重磅的特性。 Tensor Core实际上是一种矩阵乘累加的计算单元。矩阵乘累加计算在Deep Learning网络层算法中，比如卷积层、全连接层等是

给卷积神经网络动动刀：加法网络探究

卷积神经网络（CNN）在计算机视觉任务中有着广泛的应用，然而它的运算量非常巨大，这使得我们很难将CNN直接运用到计算资源受限的移动设备上。为了减少CNN的计算代价，许多模型压缩和加速的方法被提出。

华人学者彭泱获顶会最佳论文奖：如何最快求解“诺亚方舟上的鸡兔同笼问题”？靠“猜”

但是，近日，来自佐治亚理工学院的华人学者彭泱（Richard Peng）却凭借“迭代猜测”策略，提出了一种能够更快求解线性方程组的方法，并因此获得 2021 年算法顶会 ACM-SIAM 的最佳论文奖！

人类反超 AI：DeepMind 用 AI 打破矩阵乘法计算速度 50 年记录一周后，数学家再次刷新

作者 | 李梅、施方圆编辑 | 陈彩娴 10 月 5 日，AlphaTensor 横空出世，DeepMind 宣布其解决了数学领域 50 年来一个悬而未决的数学算法问题，即矩阵乘法。AlphaTensor 成为首个用于为矩阵乘法等数学问题发现新颖、高效且可证明正确的算法的 AI 系统。论文《Discovering faster matrix multiplication algorithms with reinforcement learning》也登上了 Nature 封面。然而，AlphaTenso

线性回归模型中的正规方程推导

本文对吴恩达老师的机器学习教程中的正规方程做一个详细的推导，推导过程中将涉及矩阵和偏导数方面的知识，比如矩阵乘法，转值，向量点积，以及矩阵（或向量）微积分等。

吴恩达机器学习笔记17-矩阵乘法的性质

“Linear Algebra review(optional)——Matrix multiplication properties”

Python CUDA 编程 - 6 - 共享内存

GPU的内存结构如图所示：GPU的计算核心都在Streaming Multiprocessor（SM）上，SM里有计算核心可直接访问的寄存器（Register）和共享内存（Shared Memory）；多个SM可以读取显卡上的显存，包括全局内存（Global Memory）。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐