放弃深度学习?我承认是因为线性代数

本文为雷锋字幕组编译的技术博客,原标题 Linear Algebra for Deep Learning,作者为 Vihar Kurama。 翻译 | 周小帆 吕鑫灿 整理 | 凡江 深度学习从入门到放弃?一定是哪里出了问题。

这篇文章想来和你探讨下:深度学习背后的线性代数问题。

先做个简单的名词解释

深度学习:作为机器学习的一个子域,关注用于模仿大脑功能和结构的算法:人工神经网络。

线性代数:连续的而不是离散的数学形式,许多计算机科学家不太了解它。对于理解和使用许多机器学习算法,特别是深度学习算法,理解线性代数是非常重要的。

为什么需要数学?

线性代数,概率和微积分是机器学习用于表述的「语言」。学习这些主题将有助于深入理解底层算法机制,便于开发新算法。

当限定在更小的层次时,深度学习背后的基础都是数学。所以在开始深度学习和编程之前,理解基本的线性代数是至关重要的。

深度学习背后的核心数据结构是标量,向量,矩阵和张量。让我们以编程方式用这些解决所有基本的线性代数问题。

标量

标量是单个数字,是一个 0 阶张量的例子。符号 x∈ℝ 表示 x 是一个标量,属于一组实数值 ℝ。

深度学习有不同的有趣的数字集合。ℕ 表示正整数集合(1,2,3,...)。ℤ 表示实数,包括正值,负值和 0。ℚ 表示有理数的集合,有理数可以表示为两个整数组成的分数。

Python 中内置一些标量类型 int,float,complex,bytes 和 Unicode。在 NumPy 这个 python 库中,有 24 种新的基本数据类型来描述不同类型的标量。有关数据类型的信息,请参阅此处的文档(https://docs.scipy.org/doc/numpy-1.14.0/reference/arrays.scalars.html)。

在 Python 中定义标量和一些操作:

下面的代码片段解释了对标量的几个算术运算。

以下代码片段检查给定变量是否是标量。

向量

向量是一维有序数组,是一阶张量的例子。向量被称为向量空间的对象的片段。向量空间可以被认为是特定长度(或维度)的所有可能向量的全部集合。三维实值向量空间(用 ℝ^3 表示)通常用于从数学角度表示我们对三维空间的现实世界概念。

为了明确识别向量的必要成分,向量的第 i 个标量元素被写为 x [i]。

在深度学习中,向量通常表示特征向量,其原始组成部分定义特定特征的相关性。这些元素中可能包括二维图像中像素集强度的相关重要性或者金融工具的横截面的历史价格值。

Python 中定义向量和一些操作:

矩阵

矩阵是由数字组成的矩形阵列,是二阶张量的一个例子。如果 m 和 n 均为正整数,即 m, n ∈ ℕ,则矩阵包含 m 行 n 列,共 m*n 个数字。

完整的矩阵可写为:

将所有矩阵的元素缩写为以下形式通常很有用。

在 Python 语言中,我们使用 numpy 库来帮助我们创建 n 维数组。这些数组基本上都是矩阵,我们使用矩阵方法通过列表,来定义一个矩阵。

$python

在 Python 中定义矩阵的操作:

矩阵加法

矩阵可以与标量、向量和其他的矩阵相加。这些运算都有严格的定义。这些技巧在机器学习和深度学习中会经常用到,所以值得熟练运用这些技巧。

矩阵-矩阵加法

C=A+B(矩阵 A 和 B 应该有相同的形状)

这类方法返回矩阵的形状,并将两个参数相加后返回这些矩阵的总和。如果这些矩阵的形状不相同,则程序会报错,无法相加。

矩阵-标量相加

将给定的标量加到给定矩阵的所有元素。

矩阵-标量相乘

用给定的标量乘以给定矩阵的所有元素。

矩阵乘法

矩阵 A 与矩阵 B 相乘得到矩阵 C。

矩阵转置

通过矩阵转置,你可以将行向量转换为列向量,反之亦然。

A=[aij]mxn

AT=[aji]n×m

张量

张量的更一般的实体封装了标量、向量和矩阵。在物理学科和机器学习中有时需要用到高于二阶的张量。

我们使用像 tensorflow 或 Pytorch 这样的 Python 库来声明张量,而不是用嵌套矩阵。

在 Pytorch 中定义一个简单的张量:

Python 中张量的几点算术运算

有关张量和 Pytorch 的更多文档请点击此处(https://pytorch.org/tutorials/beginner/deep_learning_60min_blitz.html)。

参考阅读链接地址:

使用 Python 语言开始深度学习: https://towardsdatascience.com/deep-learning-with-python-703e26853820 深度学习入门介绍: https://towardsdatascience.com/introduction-to-machine-learning-db7c668822c4

博客原址

https://towardsdatascience.com/linear-algebra-for-deep-learning-506c19c0d6fa

原文发布于微信公众号 - AI研习社(okweiwu)

原文发表时间:2018-05-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏wOw的Android小站

[Tensorflow] Tensor维度理解

Tensor在Tensorflow中是N维矩阵,所以涉及到Tensor的方法,也都是对矩阵的处理。由于是多维,在Tensorflow中Tensor的流动过程就涉...

1793
来自专栏C语言及其他语言

【优秀题解】1175:台球碰撞

题号1174,原题见下图: ? 解题思路: 解题思路: 把台球看做质点(台球坐标不变,球桌坐标各个边界向里收缩R,得到新的球桌); 假设没边界,求出小球沿着直...

2856
来自专栏人工智能头条

实战 | 手把手教你用PyTorch实现图像描述(附完整代码)

2.3K7
来自专栏Python小屋

Python+sklearn使用DBSCAN聚类算法案例一则

DBSCAN聚类算法概述: DBSCAN属于密度聚类算法,把类定义为密度相连对象的最大集合,通过在样本空间中不断搜索最大集合完成聚类。 DBSCAN能够在带有噪...

5354
来自专栏机器之心

学界 | 谷歌大脑提出对抗正则化方法,显著改善自编码器的泛化和表征学习能力

无监督学习的目标之一是不依靠显式的标注得到数据集的内在结构。自编码器是一种用于达成该目标的常见结构,它学习如何将数据点映射到隐编码中——利用它以最小的信息损失来...

842
来自专栏大数据挖掘DT机器学习

非监督学习算法:异常检测

什么是异常(outlier)?Hawkins(1980)给出了异常的本质性的定义:异常是在数据集中与众不同的数据,使人怀疑这些数据并非随机偏差,而是产生于完全不...

6885
来自专栏数值分析与有限元编程

有限元类型

从变分原理角度来看,按照所选取的独立自变函数的类型,可以分为如下几种类型: 1 协调类型 以位移作为独立自变函数,使用的变分原理是最小势能原理。作为独立自变函...

2824
来自专栏磐创AI技术团队的专栏

TensorFlow系列专题(十一):RNN的应用及注意力模型

目前循环神经网络已经被应用在了很多领域,诸如语音识别(ASR)、语音合成(TTS)、聊天机器人、机器翻译等,近两年在自然语言处理的分词、词性标注等工作的研究中,...

931
来自专栏Coding迪斯尼

使用自动编解码器网络实现图片噪音去除

在前面章节中,我们一再看到,训练或使用神经网络进行预测时,我们需要把数据转换成张量。例如要把图片输入卷积网络,我们需要把图片转换成二维张量,如果要把句子输入LS...

832
来自专栏程序生活

机器学习(六)Sigmoid函数和Softmax函数1 Sigmoid函数2 Softmax函数

1 Sigmoid函数 1.1 定义 Sigmoid函数是一个在生物学中常见的S型的函数,也称为S型生长曲线。Sigmoid函数常被用作神经网络的阈值函数,将变...

3.7K5

扫码关注云+社区

领取腾讯云代金券