发信人: xjzhangxw()
整理人: bsese(2000-01-07 01:04:41), 站内信件
|
改造后的熵 .19.—原理.7.-斩乱麻问题
这一讲用“斩乱麻问题”为例说明如何利用拉格朗日方法和最大熵原理(最复杂 原理)求一个未知的分布函数。
“斩乱麻问题”来自我和马力一篇文章名(97年12月的《数理统计与应用概率》 ),是说有一条充分长的绳子用刀随机切割成很多小段。问不同长度的线段各有 多少。
由于本问题符合“不同的某某某各有多少”的问题模型。所以本问题就是把一堆 乱麻看成一个广义集合而寻找它的分布函数。
由于切割是随机的,所以不可能要求切割的每个线段都有相同的长度(这种情况 出现的概率最小)。线段有长有短就构成了它的复杂性。如何定量表示其复杂性 ?用定义的复杂程度。如何估计这个复杂性的大小?显然应当在条件允许的情况 下对其复杂程度做最充分的估计比较合理。变成定量语言,就是不同长短的线段 所对应的复杂程度应当充分大。说得再专业些就是该复杂程度应当最大。
认识到复杂程度应当最大,就以此为判据反求分布函数。求分布函数时利用了这 个判据就是利用了最复杂原理或者最大熵原理。
在线段长度x为连续变量的情况下,它的分布函数为f(x)的含义是长度在x到x+ Δx范围的线段有f(x)Δx 这么多。而它的复杂程度C应当是
C=-∫f(x)lnf(x)dx
利用拉格朗日方法解这个未知函数还要利用约束条件。本问题中有什么约束条件 呢?
所谓切割这根长线仅是把它变成很多短线,而不是把线烧掉。所以很多短线头的 长度的合计值显然应当等于原来的长线的长度L,根据分布函数的含义,显然有
L=∫xf(x)dx---(1)
如果线段被切割成N段,各个线段的数量[f(x)Δx] 的积分(合计值)显然应当 等于N,即
N=∫f(x)dx---(2)
(1)和 (2) 分别表示两个约束条件,其含义是各个线段的合计值与原线长度相等 、各个线段的数量的合计值与总的线段数量相等。L,N就是两个常数。它对应于 上一讲中的g1,g2(仅有两个约束,所以m=2),根据上讲,新构造的函数应当是
F=-∫f(x)lnf(x)dx +C1(∫xf(x)dx-g1) +C2(∫f(x)dx-g2)
这里的两个C是与两个g有关的待定常数。根据上讲,分布函数应当是
f(x)=exp[-1+C1x+ C2]
利用(1)、(2)与本式联立可以消去未知数C1,C2,引入已知数L(线长),N (线头总数)解得
f(x)/N=(N/L)exp(-Nx/L)
注意到L/N的含义是线头的平均长度,以a表示它(也是常数),我们得到
f(x)=(N/a)exp[-(x/a)]
它就是得到的分布函数,它显示长度x小的线头多而长线头依负指数而减少。例如 L=200米,切成20000段(平均值a=1厘米),可以计算出长度为3-4厘米的线头有 (计算中用的3.5是3-4的平均值)
f(3.5) Δx=f(3.5)(4-3)=(2000/1)exp(-3.5/1)=604
即长度在3-4厘米的线头有604段。它占了总量的3% 。
关于本结果的讨论和进一步的应用下一讲介绍。
张学文2000,,1,5
-- ※ 来源:.月光软件站 http://www.moon-soft.com.[FROM: 202.100.166.74]
|
|