Bayes定理及其思想总结摘要: 贝叶斯是基于概率的一种算法,是Thomas Bayes:一位伟大的数学大师所创建的,目前此种算法用于过滤垃圾邮件得到了广泛地好评。贝叶斯决策是决策者经常使用的一种决策方法,具有严谨的思路
关键词:贝叶斯定理;贝叶斯决策
引言:在概率计算中,我们常常遇到这样的一类问题,某事件的发生可能依赖于多种原因,对这样的事件直接求规律往往是无能为力的。概率与我们的生存、生活是密不可分的,在我们的生活中要想使我们的期望效用最大化,我们必须考虑各种客观条件的存在,用理性的科学的思维去判断问题、分析问题,最终做出正确的决策。
贝叶斯定理贝叶斯定理(Bayes theorem),是概率论中的一个结果,它跟随机变量的条件概率以及边缘概率分布有关。在有些关于概率的解说中,贝叶斯定理(贝叶斯更新)能够告知我们如何利用新证据修改已有的看法。 通常,事件A在事件B(发生)的条件下的概率,与事件B在事件A的条件下的概率是不一样的;然而,这两者是有确定的关系,贝叶斯定理就是这种关系的陈述。作为一个规范的原理,贝叶斯定理对于所有概率的解释是有效的;然而,频率主义者和贝叶斯主义者对于在应用中概率如何被赋值有着不同的看法: 频率主义者根据随机事件发生的频率,或者总体样本里面的个数来赋值概率;贝叶斯主义者要根据未知的命题来赋值概率。一个结果就是,贝叶斯主义者有更多的机会使用贝叶斯定理。
贝叶斯定理的陈述贝叶斯定理是关于随机事件A和B的条件概率和边缘概率的一则定理。 其中L(A|B)是在B发生的情况下A发生的可能性。
在贝叶斯定理中,每个名词都有约定俗成的名称:• Pr(A)是A的先验概率或边缘概率。之所以称为"先验"是因为它不考虑任何B方面的因素。 • Pr(A|B)是已知B发生后A的条件概率,也由于得自B的取值而被称作A的后验概率。 • Pr(B|A)是已知A发生后B的条件概率,也由于得自A的取值而被称作B的后验概率。 • Pr(B)是B的先验概率或边缘概率,也作标准化常量(normalized constant). 按这些术语,Bayes定理可表述为:后验概率 = (相似度 * 先验概率)/标准化常量也就是说,后验概率与先验概率和相似度的乘积成正比。另外,比例Pr(B|A)/Pr(B)也有时被称作标准相似度(standardised likelihood),Bayes定理可表述为:后验概率 = 标准相似度 * 先验概率
贝叶斯决策贝叶斯决策就是利用补充信息,根据概率计算中的贝叶斯公式来估计后验概率,并在此基础上对备选方案进行评价和选择的一种决策方法。
企业重要的经营决策大多是在不确定的情况下进行的,具有一定的风险性,决策的科学性及稳定性在很大程度上依赖于对未来决策所涉及各自然状态的把握程度。风险决策时方案选择决定于外界环境状态,而这种状态是无法确知的,更不受决策者控制,但通过判断、调查和实验,可以获得有关信息,贝叶斯决策理论为此提供了科学的方法。
贝叶斯决策理论设A1,A2,…An为一完备事件组,事件B仅在完备事件组中某一事件发生时才发生,而且P(B)>0,在事件B出现的条件下,事件Ai出现的条件概率用P(Ai/B)表示,则由如下贝斯公式求出P(Ai/B),P(Ai/B)=P(Ai)P(B/Ai)P(B)上式中P(B/Ai)表示在事件Ai发生的条件下B发生的条件概率,P(B)是事件B发生的全概率,即:P(B)=∑ni=1P(Ai)P(B/Ai)对贝叶斯决策,我们先进行先验分析,也就是详尽列出决策矩阵或决策树,对各种状态发生的概率和条件结果都要加以估计或测算,但如果我们有可能进一步收集信息,就有可能使决策进行得更有把握一些。
几种常用的决策规则1.基于最小错误率的贝叶斯决策在模式分类问题中,人们往往希望尽量减小分类的错误,从这样的要求出发,利用贝叶斯公式,就能得出使错误为最小的分类规则,称之为基于最小错误率的贝叶斯决策。决策规则(以两类为例):如果p(w1|x)>p(w2|x),则把x归为w1类。反之,p(w1|x)
2.基于最小风险的贝叶斯决策在基于最小错误率的贝叶斯分类决策中,使错误率p(e)达到最小是重要的。但实际上有时需要考虑一个比错误率更为重要的广泛的概念———风险。风险和损失是紧密联系的。最小风险贝叶斯决策正是考虑各种错误造成损失不同而提出的一种决策规则。在此决策中利用了决策论的观点进行考虑。在已知先验概率p(wi)及类条件概率密度p(x|wi)i=1,2..c的条件下,在考虑错判所造成的损失时,由于引入“损失”的概念,而必须考虑所采取的决策是否使损失最小。对于给定的x,如果采取决策αi,损失函数λ(αi,wj)可以在c个λ(αi,wj),j=1,2,...c值中任取一个,其相应的概率为p(wj|x).因此在采取决策αi情况下的条件期望损失R(αi|x)(即条件风险)为R(αi|x)=E[λ(αi,wj)]=Σcj=1 λ(αi,wj)p(wj|x) i=1,2,...α 条件风险反映了对某一个x取值采取决策αi所带来的风险。由于x是随机向量的观察值,对于x的不同观察值,采取决策αi时,其条件风险的大小是不同的。所以将决策α可以看作随机向量x的函数,记为α(x),所以我们定义期望风险为R=∫R(α(x)|x)p(x)dx。期望风险反映了对整个特征空间上所有x的值所采取相应的决策α(x)所带来的平均风险。最小风险贝叶斯决策规则为如果R(αk|x)= m i n i=1,2..αR(αi|x),则α=αk
3.限定一类错误率条件下使另一类错误率为最小的两类决策在两类别决策问题中,有犯两种错误的可能性,一种是在采取决策w1时其实际自然状态为w2;另一种是在采取决策w2时其实际自然状态为w1,这两种错误的概率分别是p(w2)•p2(e)和p(w1)•P1(e),最小错误率贝叶斯决策是使这两种错误率之和p(e)为最小。由于先验概率对具体问题来说往往是确定的,所以一般称P1(e),P2(e)为两类错误率。实际中,有时要求限制其中某一类错误率不得大于某个常数而使另一类错误率尽可能的小。这样的决策可以看成在P2(e)=ε0条件下,求P1(e)极小值的条件极值问题。可以用条件极值的Lagrange乘子法。建立的数学模型为γ=P1(e)+λ(P2(e)-ε0)其中λ是Lagrange乘子,目的是求γ的极小值。当求的最佳的λ及两类决策的分界面t时能使γ极小,此时的决策规则为:如果λp(x|w2)>
4.最小最大决策从最小错误率和最小风险贝叶斯决策中可以看出其决策都是与先验概率p(wi)有关的。如果给定的x,其p(wi)不变,按照贝叶斯决策规则,可以使错误率和风险最小。但是如果p(wi)是可变的,或事先对先验概率毫不知道的情况下,若再按某个固定的p(wi)条件下的决策进行就往往得不到最小错误率或最小风险。而最小最大决策就是考虑在p(wi)变化的情况下,如何使最大可能的风险为最小,也就是在最差的条件下争取到最好的结果。对于两类问题假设损失函数为λ11———当x∈w1时决策为x∈w1;λ21--当x∈w1时决策为x∈w2;λ22———当x∈w2时决策为x∈w2;λ12--当x∈w1时决策为x∈w2;通常作出错误决策比作出正确决策所带来的损失要大,即λ21>λ11及λ12>λ22。再假定决策域 和 已经确定,则风险R可按公式得出R=∫R(α(x)|x)p(x)dx=∫ R(α1|x)p(x)dx+∫ R(α2|x)p(x)dx=∫ [λ11p(w1)p(x|w1)dx+λ12p(w2)p(x|w2)]dx+∫ [λ21p(w1)p(x|w1)+λ22p(w2)p(x|w2)]dx我们的目的是分析风险R与先验概率p(w1)之间的关系。最小最大决策的任务就是寻找贝叶斯183
斯风险为最大时的决策域R1或R2,它对应于(λ11-λ22)+(λ21-λ11)∫ p(x|w1)dx-(λ12-λ22)∫ p(x|w2)dx=0的解。风险R为:R=λ22+(λ12-λ22)∫ p(x|w2)dx=α因此在做最小最大贝叶斯决策时,若考虑p(w1)有可能改变或对先验概率毫不知晓的情况下,应选择贝叶斯风险R为最大值时的p(w1)来设计分类器,此时能保证其风险相对于其它的p(w1)为最大,而能保证在不管p(w1)如何变化,使最大最小风险为最小,我们称这样的决策为最小最大决策。
5.序贯分类法上述的分类决策都认为d个特征都同时给出且不考虑获取特征所花的代价。而在实际的应用中却要考虑获取特征的代价。因此可能出现这样的情况,获取k个特征(k
6.用上述的决策对观察向量x进行分类是分类器设计的主要问题。分类器就是一个和一系列的判别函数(或决策面)。
贝叶斯决策理论分析 (1)如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合,那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。(如已知为正态分布了,根据标记好类别的样本来估计参数,常见的是极大似然率和贝叶斯参数估计方法) (2)如果我们不知道任何有关被分类类别概率分布的知识,已知已经标记类别的训练样本集合和判别式函数的形式,那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。(如已知判别式函数为线性或二次的,那么就要根据训练样本来估计判别式的参数,常见的是线性判别式和神经网络) (3)如果我们既不知道任何有关被分类类别概率分布的知识,也不知道判别式函数的形式,只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。(如首先要估计是什么分布,再估计参数。常见的是非参数估计) (4)只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类,从而估计它们概率分布的参数。(这是无监督的学习) (5)如果我们已知被分类类别的概率分布,那么,我们不需要训练样本集合,利用贝叶斯决策理论就可以设计最优分类器。但是,在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。
贝叶斯决策理论实例有一个地区,男孩与女孩的出生比率假定为85:15,假定人们是通过统计得到这个数据的。医院通过B超可以确定孕妇所怀的是男孩还是女孩。我们假定某个医院里的A医生因水平有限,确定孕妇所怀婴儿的性别的准确率为80%。有一天有一个孕妇到该医院进行B超,A医生说,该孕妇所怀的是女孩。根据医生的判断,该孕妇怀男孩的可能性大还是怀女孩的可能性大?我们用Bayes定理来分析:在该孕妇去医院之前,我们认为它生男孩的可能性为0.85,女孩的可能性为0.15。这两个概率值为先验概率。当孕妇去了医院后,我们可以根据医生结论来修正对该孕妇生男孩和生女孩的可能性(概率)。如果医生判断的准确率是100%,那末,医生说生女孩,生女孩的可能性就是1。但在这里,由于医生判断的准确率不是100%,而是80%。所以我们要根据医生的结论利用Bayes定理来修正我们的信念.我们对事件h、e的先验概率为p(h),p(e),随着事件e的发生,此时我们对事件h的验后概率p(h | e)应当为多少。Bayes公式是这样的:p(h | e) =p(h)p(e | h)p(h)p(e | h)+p(-h)p(e |-h)上式中,h和e为两个事件;p(h | e)为e发生时h发生的可能性;p(e| h)为h发生时e发生的可能性;p(-h | e)为e发生时h不发生的可能性。我们这里要求的是,当“医生说该孕妇怀女孩的条件下”怀女孩的可能性为多大?该孕妇未去医院前,她生女孩的先验概率为p(g) =0.15;生男孩的先验概率为p(b)=0.85。而医生的准确率为80%,即当孕妇怀女孩时,医生说成女孩的可能性为0.8,即p(dg| g)=0.8,医生说成男孩的可能性0.2,即p(db | g) =0.2.根据定理,p(g | dg)为:p(g|dg)=p(dg| g)p(g)[p(dg| g)p(g)+p(db | g)p(b)]=0.80*0.15(0.80*0.15+0.2*0.85)=0.413。p(b | dg) =1-0.413=0.587。结论是:当医生说该孕妇所怀的是女孩时,该孕妇怀女孩的可能性为41.3%,怀男孩的可能性为58.7%。即此时,该孕妇怀男孩的可能性大于怀女孩的可能性。由以上的例子,我们可以得知,概率与我们的生存、生活是密不可分的,在我们的生活中要想使我们的期望效用最大化,我们必须考虑各种客观条件的存在,用理性的科学的思维去判断问题、分析问题,最终做出正确的决策。
结束语贝叶斯决策方法作为一种风险型决策方法,在实际中的应用较广泛。企业重要的经营决策大多是在不确定的情况下进行的,具有一定的风险性,决策的科学性及稳定性在很大程度上依赖于对未来决策所涉及各自然状态的把握程度。风险决策时方案选择决定于外界环境状态,而这种状态是无法确知的,更不受决策者控制,但通过判断、调查和实验,可以获得有关信息,贝叶斯决策理论为此提供了科学的方法。 贝叶斯推理在过去近30年中得到了较为广泛的研究,特别自Kahneman和Tversky发现人们直觉的概率判断忽略基础概率现象以来,出现了许多理论和研究方法的更新,这些都深化了对这一问题的研究。这些研究既揭示了人们概率估计中常见的认知错误,也为人们进行贝叶斯推理至少提供了以下启示:首先,必须注意事件的基础概率,基础概率小的事件,即使某种击中率较高,其出现的总概率仍然是较小的。如现实生活中中奖的机会等就是小概率事件。其次,应该对信息的外部表征作理性的分析,不应受一些表面特征所迷惑。如击中率的高低并不决定该事件出现概率的高低。第三,不能过分相信经验策略(如代表性启发和可得性启发)。虽然经验策略有时能减轻人们的认知负荷并导致正确的概率估计,但也在许多情况下会误导我们的判断。如不要因为舆论经常宣传癌症对人们生命的威胁就认为癌症致死的概率比心脏病致死的概率更高。当然,贝叶斯推理问题仍然值得做更进一步的研究,如人们对概率信息的内部加工过程及其特点,对基础概率、击中率或误报率的敏感或忽略及其所依存的条件以及研究方法和手段的改进等。