最大熵原理
最大熵原理是在1957 年由E.T.Jaynes
提出的,其主要思想是,在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。因为在这种情况下,符合已知知识的概率分布可能不止一个。我们知道,熵定义的实际上是一个随机变量的不确定性,熵最大的时候,说明随机变量最不确定,换句话说,也就是随机变量最随机,对其行为做准确预测最困难。
从这个意义上讲,那么最大熵原理的实质就是,在已知部分知识的前提下,关于未知分布最合理的推断就是符合已知知识最不确定或最随机的推断,这是我们可以作出的唯一不偏不倚的选择,任何其它的选择都意味着我们增加了其它的约束和假设,这些约束和假设根据我们掌握的信息无法作出。
最大熵的发展过程
早期的信息论其中心任务就是从理论上认识一个通信的设备(手段)的通信能力应当如何去计量以及分析该通信能力的规律性。但是信息论研究很快就发现利用信息熵最大再附加上一些约束,就可以得到例如著名的统计学中的高斯分布(即正态分布)。这件事提示我们高斯分布又多了一种论证的方法,也提示了把信息熵最大化是认识客观事物的规律性的新角度。
把熵最大(对应我们的复杂程度最大)做为一种原则或者方法应用于各个科技领域的旗手是杰尼斯E.T.Jaynes
。他从1957年就在这个方向做了开创性的工作。他给出了利用最大熵方法定量求解问题的一般技术途径;论证了统计力学中的一些著名的分布函数从信息熵最大的角度也可以得到证明。这不仅使信息论知识与统计物理知识实现了连通,也使熵概念和熵原理走出了热力学的领域。
20世纪60年代Burg在时间序列的分析中提出了用信息熵最大求频谱的技术。用这种方法得到的谱的准确性比过去的方法好,人们把它称为最大熵谱。80年代这个方法在我国也得到了广泛应用。40多年以来,尽管“利用最大熵的方法解决科技问题”在信息论的理论中不是主流,但是利用信息熵最大帮助解决很多科技问题已经形成了独立的一股学术和技术力量,而且是硕果累累了。80年代以来在美国等地每年都召开一次讨论最大熵方法应用的学术会议,并且有一册会议文集出版。这成为他们的重要学术活动形式。
最漂亮的办法是最大熵(maximum
entropy)模型,它相当于行星运动的椭圆模型。“最大熵”这个名词听起来很深奥,但是它的原理很简单,我们每天都在用。说白了,就是要保留全部的不确定性,将风险降到最小。让我们来看一个实际例子。
有一次,我去 AT&T
实验室作关于最大熵模型的 告,我带去了一个色子。我问听众“每个面朝上的概率分别是多少”,所有人都说是等概率,即各点的概率均为1/6。这种猜测当然是对的。我问听众们为什么,得到的回答是一致的:对这个“一无所知”的色子,假定它每一个朝上概率均等是最安全的做法。(你不应该主观假设它象韦小宝的色子一样灌了铅。)从投资的角度看,就是风险最小的做法。从信息论的角度讲,就是保留了最大的不确定性,也就是说让熵达到最大。接着,我又告诉听众,我的这个色子被我特殊处理过,已知四点朝上的概率是三分之一,在这种情况下,每个面朝上的概率是多少,大部分人认为除去四点的概率是
1/3,其余的均是 2/15,也就是说已知的条件(四点概率为
1/3)必须满足,而对其余各点的概率因为仍然无从知道,因此只好认为它们均等。注意,在猜测这两种不同情况下的概率分布时,大家都没有添加任何主观的假设,诸如四点的反面一定是三点等等。(事实上,有的色子四点反面不是三点而是一点。)这种基于直觉的猜测之所以准确,是因为它恰好符合了最大熵原理。
最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型”。我们常说,不要把所有的鸡蛋放在一个篮子里,其实就是最大熵原理的一个朴素的说法,因为当我们遇到不确定性时,就要保留各种可能性。
离散情形
这是一个约束极值问题,通过Lagrange乘数法可以求得其最优解,从熵作为系统不确定性的度量的角度来看,等可能系统的不确定性是最大的,这一结果与我们的直观是一致的。更进一步,许多问题都附带一些实际的限制,也可以理解为在解决问题之前,我们可以获得一些已知信息。由此,(1)可以深化为
为各阶统计矩函数,,表示实际观测到的各阶统计矩的期望值。这里由于为一正常数,为简便记,取。同(1),仍然可以利用Lagrange乘数法来求解。做Lagrange函数:
解出最优解。但当较大时,往往计算困难。姜昱汐提出了一个解决此问题的方法[5]。利用对偶规划理论,可得问题(2)的求解相当于求解:
其中,(3)是凸规划(2)的对偶规划,优势在于(3)是一个变量个数较(2)少的无约束规划,可以直接利用软件求解。
连续情形
对于连续系统,记为一连续随机变量,概率密度函数为。此系统的熵定义为[6]。在一些条件的约束下,使得系统熵最大的问题一般有下面形式:
其中为一些约束,右端为观测值。这是一个有
个约束的泛函极值问题。关于这一问题有如下定理。
定理2.1[7]若在条件约束下目标泛
使得满足泛函,所给出的欧拉方程组
由此方程组可解出目标。
相关资源:Yalefree雅乐简谱打谱软件_打谱软件-WindowsServer工具类资源…
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!