本公众号文章:第4节 认知过程与逻辑回归描述了逻辑回归的原理,并且从数学上推导了逻辑回归代价函数的公式,但为什么采用这个公式需要从信息论的角度去说明。
信息论研究的是信息的度量,存储和传输。由美国数学家密码学家香农在1948年提出。信息论在信号处理,数据压缩,机器学习等领域有广泛应用。
信息论的核心是熵的概念,它是一种对信息不确定性的度量。信息的不确定性越大,则熵越大。举个例子:投掷一个硬币,存在两种可能,这种情况下,最少可以用一个比特(1或 0)表示所有这些不确定性,则它的熵就是1。即,熵是对某个事物的所有可能性描述的最小信息长度。
而两种不同分布的事物相似度的描述可以用交叉熵表示。逻辑回归中,训练数据存在一个概率分布,我们将要优化的模型存在一个概率分布,我们希望这两个分布越接近越好,而交叉熵正是对两个概率分布差异性的度量。因此,就不难理解为什么逻辑回归中采用交叉熵作为代价函数。
要理解信息论的概念,需要具有概率分布,条件概率等基本的数学基础。如果没有这方面基础,理解起来很困难。我在网上发现一篇很好的文章,它从概率可视化的角度出发,从基本的概率分布和条件概率概念讲起,由浅入深,逐渐过渡到信息论和熵的概念。理解起来相对来说比较容易。
领取专属 10元无门槛券
私享最新 技术干货