Legendre变变变

Legendre翻译可以是勒让德,或者李詹德, 还是直接用Legendre吧! 他是数学界18世纪最著名3L数学家之一! 他们分别是Lagrange (1736) 拉格朗日, Laplace (1749) 拉普拉斯, Legendre (1752)勒让德。 拉格朗日是欧拉一样的数学美学大师(在“一步一步走向锥规划 - QP”有部分介绍), Laplace更像玩数学工具的(在“概率估值的光滑(Smoothing)”有丁点提到)。 而Legendre则是一位启迪性的大师, 没有把数学雕刻的那么美, 也没有把数学玩的那么实用, 但是他的很多工作都是后来大师的基础。

其实法国著名数学家有4L,还有一个Lebesgue (1834) 勒贝格,是19世纪的。 18世纪还有一个L的科学家是大化学家Lavoisier(1743)拉瓦锡。

如果对于这5L的成果都懂的人, 也算是当世奇才了, 可见法国对世界科学的贡献。

18世纪3L数学大师之Legendre

Adrien-Marie Legendre 出生富裕(1752), 基本上可以不工作,一辈子从事科研。 并且他师从宫廷数学家 Abbé Joseph-Francois Marie读博。 18岁那年, 他的博士论文受到过Lagrange的重视。 之后受过Laplace的指导。 从此开始坠入数学与物理学研究。 作为3L最年轻的, 他继任了Laplace的职位, 最终也继任了Lagrange的职位, 成为法国数学方面的首席。 1790年,由于受到法国大革命影响, 他的财产被没收, 让他被迫谋求了军事学院教职, 研究弹道, 不久也取了美丽的19岁女孩Marguerite-Claudine Couhin, 那年(1793年)他已经41岁了, 这位美丽的玛格丽特照顾了他, 并且在失去财产的状态下谋求了一个安静的环境给他继续研究。他又活了40年以81岁的高龄去世。 美丽的玛格丽特, 在他死后24年也去世了(也差不多83岁高龄), 受到世人的尊敬。 他的主要贡献在分析学(尤其是椭圆积分理论)、数论、初等几何与天体力学等方面, 他独立欧拉并先于发明了最小二乘法。 Legendre 位列法国72圣贤的第一队列!

为什么Legendre都是用那幅火焰版肖像?

Legendre 出生富裕却为人低调, 虽然贡献卓越, 但是他和Lagrange一样, 很低调。即便在1811年受爵(58岁, 下图是他的爵位设计, 在军事和天文方面的贡献),但是他的肖像画很少, 只有一副版刻流传了下来。就是上面那个图片。 或许由于他和Marguerite没有后代, 一个本家的肖像一度被错用为他的肖像, 长达200年,而没有人指出。

Legendre经典的椭圆积分是什么?

Legendre 给出了椭圆积分的3中情况不同情况下的不同积分形式,方便计算:

由于这个不是这里的重点, 就不展开了。

Legendre经典的Legendre变换是什么?

直观上来说, Legendre变换告诉我们一个函数,可以另外看成无数切线切出来的一个曲线。 这样的好处是在任意固定点研究的时候, 我们有更多的线性关系可以使用。 下面我们展开讨论Legendre变换。

Legendre变换

Legendre的代数推理

基于偏微分等式, 整个代数推理过程很简单:

从这个过程我们可以看到我们构造了一个新的函数, 要求这个函数偏导数之一依然是u, 而另外一个偏导数却变成了-y, 当然偏导数的对象也变成了上面f对y的偏导数。 在这种情况下, 很容易推导出g的形式, 而这个形式就是Legendre变换函数。

上面我们对y的偏导数进行了替换, 也可以对x的偏导数进行替换, 上面我们通过目标推导了Legendre变换应该有的形式。 下面我们根据Legendre变换的形式, 看看这个变换的特征:

我们可以看到替换了x的偏导数之后, 变换前后对y的偏导数一样, 变换后的函数g,对变换前f对x的偏导数(看成变量), 求导的结果刚好为-x。

这样我们通过正反两个方面从代数的角度看了一下形式上对称性。

Legendre的几何解释

首先, 我们从图上看一下变换g的含义是什么? 我们取一个直观的函数f(x)。然后, 我们可以看到g(u)是对应的切点P所在的切线的截距 。

这个截距改写成斜率的函数式, 就可以得到新的函数:

我们再看一个负的截距的情况, 依然满足:

基本上很明确,就是Legendre变换就是截距按斜率作为输入的新的函数模型。

我们再来看一个例子f(x) = x^2 / 2 。 对了这里把f*记成负的Legendre变换的结果, 成为对偶。

把这个函数和它的对偶联动起来如下, 我们可以看到左边的截距的负数和右边的函数值是一致的:

所以几何上, lagendre变换就是把函数和函数的切线之间建立了一组映射关系。

凸函数的最值引入

根据前面的列子, 我们基本明白了Legendre变换的几何含义。 但是你有没发现, 我们在给出例子的时候f(x, y) = f(x) = exp(x); f(x, y) = f(x) = x^2;里面都没有涉及到另外一个变量。

如果我们看对偶的g的表达式, 要求有一个对导数的替换为p的过程(上面例子中x=p), 如果把这个替换改写成一个等式, 刚好等于g对x的偏导数为零, 我们知道对于凸函数( 关于凸函数部分性质,参考“一挑三 FJ vs KKT”), 偏导数为零意味着在这个方向上取最值。 那么可以不做替换, 直接对x求最值来消去x。

所以这样, 我们对x不做任何替换, 直接通过求最值的方式消去x是等价的。

根据二阶导数半正定是凸函数的充分条件,因此很多时候要求二阶偏导数半正定。

一阶导数互逆引入

如果两个函数, 他们的一阶导数互逆(inverse function), 那么我们可以推导到这两个函数就是满足Legendre变换的两个函数。

反函数引入是一个极好的思路, 一般来说反函数具有很好的对称性质,以及反函数的反函数是自身, 因此我们大概可以推理出Legendre变换的Legendre变换是他自身,或者说对偶的对偶,是可能的情况。

这样,我们就可以根据你函数的性质来很容易得到最值情况的结论:

这个的证明就不细化说明了, 很明显结合了前面的两种推理思路。

根据上面导数逆函数的性质,很容易得到如下性质: 缩放性质(Scaling properties) 和 反函数性质(inversion)

然后再根据Legendre的线性设计, 有如下性质: 平移( translation) 和 线性变换(linear transformations)

Legendre变换的最大应用

在统计热力学的热力学系统(thermodynamic system)的描述是由内能量函数(internal energy function)来决定的, 并且根据能量变换关系有:

有下图我们看到Free Energy的定义就是对内能量的不同参数的偏导数做不同的Legendre 变换而得到的:

甚至更进一步可以得到全部变量的Legendre变换:

而有了这些Free Energy的定义,我们就容易分析在何种导数(温度, 压强, 粒子数量变换)情况下内能的变换。 这就是通过Legendre变换来重建函数的意义。 类似的熵和自由熵(Free Entropy)也存在这种Legendre变换的关系。 而这些能量或者熵的具体含义希望以后进一步扩展。

Legendre变换的扩展

凸共轭(convex conjugate )是对Legendre变换的泛化, 是凸优化的中神通Werner Fenchel 大神构建的 (参考“一挑三 FJ vs KKT”之东邪西毒南帝北丐中神通), 又称为Legendre–Fenchel transformation 或者 Fenchel transformation(如下图示意)。 对此,我们希望以后进一步扩展。

小结, 我们分析了Legendre变换如何神奇的通过切线和截距来重建函数, 并且给出了最值引入和逆函数引入, 由此引述了Legendre变换的意义。在此基础上引述了Free Energy的重要概念和Fenchel 对偶的扩展。

参考:

http://www.thefamouspeople.com/profiles/adrien-marie-legendre-591.php

http://www.boost.org/doc/libs/1_39_0/libs/math/doc/sf_and_dist/html/math_toolkit/special/ellint/ellint_1.html

https://nicolailang.de/Projects/Visualizations/Legendre_Transformation/

http://mathworld.wolfram.com/LegendreTransformation.html

http://blog.csdn.net/climbingc/article/details/6313787

原文发布于微信公众号 - AI2ML人工智能to机器学习(mloptimization)

原文发表时间:2016-12-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏AI2ML人工智能to机器学习

深度学习名校课程大全

在吴恩达的最新《深度学习》课程里面, 鼻祖辛顿(参考“攒说 Geoff Hinton”)反复强调这是一场革命,或许不如第二次工业革命的影响力, 但是类似规模还是...

13930
来自专栏机器学习算法与Python学习

蒙特卡洛方法入门

蒙特卡洛方法入门 引言 蒙特卡罗方法于20世纪40年代美国在第二次世界大战中研制原子弹的“曼哈顿计划”计划的成员S.M.乌拉姆和J.冯·诺伊曼首先提出。数学家冯...

437110
来自专栏数说工作室

《神经网络》中文字幕版(2.5 感知器的局限性)

《Neutral Network for Machine Learning》(机器学习中的神经网络)系列课程,是深度学习大神 Geoffrey Hinton 毕...

34480
来自专栏AI科技评论

干货 | 什么是熵?

雷锋网 AI 科技评论按:「熵」大概是统计学、信息学里最让初学者愁肠百结的基本概念之一。我们都知道熵可以用来描述含有的信息丰富程度的多少,但是具体是怎么回事呢?...

12120
来自专栏ATYUN订阅号

使用python中的Numpy进行t检验

虽然像SciPy和PyMC3这样的流行的统计数据库有预定义的函数来计算不同的测试,但是为了了解这个过程的数学原理,必须了解后台的运行。本系列将帮助你了解不同的统...

1.2K50
来自专栏PPV课数据科学社区

21副GIF动图让你了解各种数学概念

“让我们面对它;总的来说数学是不容易的,但当你征服了问题,并达到新的理解高度,这就是它给你的回报。” ——Danica McKellar 数学是很难的学科,但因...

33840
来自专栏专知

【NIPS2017前沿】半监督学习需要Bad GAN,清华特奖学霸与苹果AI总监提出(附Ruslan教授深度学习教程pdf下载)

【导读】CMU博士杨植麟与导师同时也是苹果首任AI总监Ruslan Salakhutdinov 在NIPS2017上合作提出新的GAN生成模型,大幅度提高对抗生...

76360
来自专栏大数据文摘

21副GIF动图让你了解各种数学概念

20750
来自专栏PPV课数据科学社区

【学习】R语言与机器学习(分类算法)logistic回归

由于我们在前面已经讨论过了神经网络的分类问题,如今再从最优化的角度来讨论logistic回归就显得有些不合适了。Logistic回归问题的最优化问题可以表述为:...

29840
来自专栏AI研习社

博客 | 什么是熵?

雷锋网 AI 科技评论按:「熵」大概是统计学、信息学里最让初学者愁肠百结的基本概念之一。我们都知道熵可以用来描述含有的信息丰富程度的多少,但是具体是怎么回事呢?...

10220

扫码关注云+社区

领取腾讯云代金券