数学之美番外篇:平凡而又神奇的贝叶斯方法(2)——刘未鹏

拼写纠正

首先,我们需要询问的是:“问题是什么/strong>”

问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢用刚才我们形式化的语言来叙述就是,我们需要求:

P(我们猜测他想输入的单词|他实际输入的单词)

这个概率。并找出那个使得这个概率最大的猜测单词。显然,我们的猜测未必是唯一的,就像前面举的那个自然语言的歧义性的例子一样;这里,比如用户输入:thew,那么他到底是想输入the,还是想输入thaw底哪个猜测可能性更大呢运的是我们可以用贝叶斯公式来直接出它们各自的概率,我们不妨将我们的多个猜测记为h1 h2……(h代表hypothesis),它们都属于一个有限且离散的猜测空间H(单词总共就那么多而已),将用户实际输入的单词记为D(D代表Data,即观测数据),于是:

P(我们的猜测1|他实际输入的单词)

可以抽象地记为:

P(h1|D)

类似地,对于我们的猜测2,则是P(h2|D)。不妨统一记为:

P(h|D)

运用一次贝叶斯公式,我们得到:

P(h|D)=P(h)*P(D|h)/P(D)

对于不同的具体猜测h1 h2 h3……,P(D)都是一样的,所以在比较P(h1|D)和P(h2|D)的时候我们可以忽略这个常数。即我们只需要知道:

P(h|D)∝P(h)*P(D|h)(注:那个符 的意思是“正比例于”,不是无穷大,注意符 右端是有一个小缺口的。)

这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior)”和“这个猜测生成我们观测到的数据的可能性大小(似然,Likelihood)的乘积。具体到我们的那个thew例子上,含义就是,用户实际是想输入the的可能性大小取决于the本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和想打the却打成thew的可能性大小(似然)的乘积。

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下P(h) * P(D | h)这个值,然后取最大的,得到的就是最靠谱的猜测。

原文地址:http://www.infzm.com/content/80410

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2012年8月17日
下一篇 2012年8月17日

相关推荐