伯努利分布和二项分布

最近在研究LDA(Latent Dirichlet Allocation)。发现概率论的知识欠缺很多啊。
博客:持之以恒的博客关于这方面的文章还很不错,值得一看。

说一下什么是二项分布吧

在PRML书中,二项分布的讲解是非常到位的,我提取一些主要信息,一方面是加深理解,同时也可以mark一下。

伯努利分布:

假设有一枚硬币,这枚硬币是有破损的,所以,如果你去抛硬币,正面和反面出现的概率不是相同的。怎样描述这个概率分布呢,我们用随机变量[tex]x\in\{0,1\}[/tex]来表示[tex]x=1[/tex]代表硬币是正面,[tex]x=0[/tex]就代表硬币是反面咯。我们假设[tex]x=1[/tex]的概率可以用参数[tex]\mu[/tex]来表示,那么硬币出现正面的概率就可以这样表示:

[tex]p(x=1|\mu)=\mu[/tex],这里[tex] 0 \leq x \leq 1[/tex]

很显然的,硬币出现反面的概率:

[tex]p(x=0|\mu)=1-\mu[/tex]

那么抛硬币的概率-伯努力实验的概率公式就可以很清楚的表示出来了:

[tex]Bern(x|\mu)=\mu^x(1-\mu)^{1-x}[/tex]

 

下面我们考虑这样一个问题:如果让你抛N次硬币。通过结果,你能否大概的估计出[tex]\mu[/tex]的值是多少?怎样来估计这个[tex]\mu[/tex]值呢?对给定的观察数据集合[tex]D=\{x_1,x_2,\dots,x_N\}[/tex],其中[tex]x_i[/tex]是第[tex]i[/tex]次的观察值我们构造似然函数:

[tex]p(D|\mu)=\prod_{n=1}^Np(x_n|\mu)=\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}[/tex]

通过这个似然函数,我们可以看出,如果我尽量取[tex]\mu[/tex]使[tex]p(D|\mu)[/tex]取得最大值,那么,这个[tex]\mu[/tex]值也就会非常接近抛硬币的真是分布。所以我们管这种估计参数的方法叫做极大似然估计。怎样通过求最大值的方法来求得这个[tex]\mu[/tex]的最大值呢?回忆一下,在高等代数中,我们知道,平滑曲线的极值点一定导数是0的,那么我们就可以通过求导赋值0来找这个极大值点。问题出现了,求导并没有使[tex]\prod_{n=1}^N\mu^{x_n}(1-\mu)^{1-x_n}[/tex]问题得到简化,反而是问题复杂化了。继续回忆[tex]log[/tex]曲线的样子,恩,你应该想起来了,[tex]log[/tex]曲线是一条递增的的曲线,那么我们对一个数学表达式取log并不会使得其增长方向发生变化,带来的好处是,我们把所有的乘法运算变成了加法运算。哈哈,数学真是太神奇了。

说完了伯努利分布,我们继续看看什么是二项式分布。想象这样一种情形,如果,你抛了[tex]N[/tex]次硬币,出现正面的次数是[tex]m[/tex]次,那么怎样来描述这样一种分布呢?

定义:对给定大小为[tex]N[/tex]的数据集,[tex]m[/tex]次观测值为[tex]x=1[/tex],则我们管这种分布叫做二项式分布,其表示如下:

[tex]Bin(m|N,\mu)={N \choose  m}\mu^m(1-\mu)^{N-m}[/tex]

其中[tex]{N \choose  m}=\frac{N!}{(N-m)!m!}[/tex]

二项式分布和伯努利分布是不同的两种分布。你注意到二项式分布是有两个参数的,分别为[tex]N,\mu[/tex],PRML中给出了[tex]N=10,\mu=0.25[/tex]的直方图:

 

好了,伯努利分布和二项式分布就先说到这里。