Softmax

Oceanlong

发布于 2018-07-03 13:24:03

8710

发布于 2018-07-03 13:24:03

文章被收录于专栏：移动开发面面观

前言

在机器学习中的多元分类问题，我们时常使用softmax函数来整理输出结果。那么什么是softmax呢？

什么是多元分类？

在机器学习中，我们有一类非常常见的问题，叫作多元分类问题。所谓多元分类，即是我们的模型，结果是一个离散的，超过二维的表示。

举几个例子：

判断一个图片是不是猫，这是一个二元分类问题，不是多元分类（只有是与不是）。
预测一个地区未来三个月的房价，这个结果是连续的，所以它也不是多元分类。
判断一个数字是[0,9]中的哪一个，这就是一个标准的多元分类问题，答案只有[0,9]10个。

Softmax函数

从纯数学来说，它是一种函数的变换。它的作用是：它能将一个含任意实数的K维向量 “压缩”到另一个K维实向量中，使得每一个元素的范围都在 (0,1)之间，并且所有元素的和为1。这个“压缩”的过程，就是Softmax函数，它是一个数学变换。

image.png

import math
z = [1.0, 2.0, 3.0, 4.0, 1.0, 2.0, 3.0]
z_exp = [math.exp(i) for i in z]  
print(z_exp)  # Result: [2.72, 7.39, 20.09, 54.6, 2.72, 7.39, 20.09] 
sum_z_exp = sum(z_exp)  
print(sum_z_exp)  # Result: 114.98 
softmax = [round(i / sum_z_exp, 3) for i in z_exp]
print(softmax)  # Result: [0.024, 0.064, 0.175, 0.475, 0.024, 0.064, 0.175]

Softmax的优势

我们为什么要用Softmax呢？指数函数的值域为(0 - 正无穷) 在做归一化处理时，会自动去掉负数带来的困境，在计算概率的场景，非常合适。因为通常来说，概率就是[0,1]的范围。因此，在多元分类问题中，使用Softmax是非常合适的。

Softmax的使用

本质上，linear，Logistic，Softmax 都是一个东西推导出来的。就是广义线性模型。这些分布之所以长成这个样子，是因为我们对y进行了假设。当y是正太分布-------->linear model 当y是两点分布-------->Logistic model 当y是多项式分布-------->Softmax 只要y的分布是指数分布族的（还有若干假设），都可以用一种通用的方法推导出h(x)。

image.png

mnist数据集

mnist机器学习入门的一个常用数据集，也是softmax应用的一个很好的示例。mnist有大约60k张手写数字的图片。图片是28 x 28 x 255的黑白图片，并包含对应的标签。我们将其变成一维，图片可以用[1,784]的张量来表示。每个元素的值为[0,255]。我们的输出是[0,9]，因此，可以用张量[1,10]来表示，每个元素值为(0,1)。表示0-9十个数字的可能性。

实践证明，在这个问题上softmax就是一个非常有效的模型。

那么 y = softmax(wx+b) 其中: x : [N , 784] w: [784 , 10] b: [1,10] y: [N , 10]

在tensorflow中，我们会这样表示：

y = tf.nn.softmax(tf.matmul(x,W) + b)

这样，我们就将数据集和我们想要的输出连接了起来。我们就可以通过机器学习，来寻找最佳的w和b，从而形成我们的模型。最终，它就能帮助我们完成对手写数字图片的识别了。

本文参与腾讯云自媒体同步曝光计划，分享自作者个人站点/博客。

原始发表：2018.05.18 ，如有侵权请联系 cloudcommunity@tencent.com 删除

机器学习

本文分享自作者个人站点/博客前往查看

如有侵权，请联系 cloudcommunity@tencent.com 删除。

本文参与腾讯云自媒体同步曝光计划，欢迎热爱写作的你一起参与！

机器学习

登录后参与评论

0 条评论

热度

Softmax

Softmax

前言

什么是多元分类？

Softmax函数

Softmax的优势

Softmax的使用

mnist数据集

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐