贝叶斯推理相关

贝叶斯推理相关摘要：贝叶斯是基于概率的一种算法，是由Thomas Bayes（一位伟大的数学大师）所创建的。很多以美国著名大学的学生为被试的研究发现，即使这些受过良好教育的成人多半也不能解决贝叶斯推理任务。中科院心理所朱莉琪副研究员等的研究首次以儿童为被试，探查了他们解决贝叶斯推理问题的发展轨迹。研究人员选取小学四、五、六年级的儿童作为被试，首先给他们呈现百分比(概率)形式的贝叶斯推理任务，结果显示没有儿童能够解决这样的问题，但当研究者转化信息表征形式，把概率表征转化为自然频率表征后，约有20%的四年级被试，40%的五年级被试和超过一半的六年级被试能够解决贝叶斯推理问题。可见贝叶斯理论的重要地位。
关键词：贝叶斯人工智能贝叶斯推理
0 引言人们根据不确定性信息作出推理和决策需要对各种结论的概率作出估计，这类推理称为概率推理。概率学和逻辑学研究的是客观概率推算的公式或规则；而心理学研究人们主观概率估计的认知加工过程规律。概率推理既是概率学和逻辑学的研究对象，也是心理学的研究对象，但研究的角度是不同的。贝叶斯推理的问题是条件概率推理问题，这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义。早在18世纪，英国学者贝叶斯(1702～1761)曾提出计算条件概率的公式用来解决如下一类问题：假设H[,1],H[,2]…互斥且构成一个完全事件，已知它们的概率P(H[,i],i=1,2,…，现观察到某事件A与H[,1],H[,2]…相伴随而出现，且已知条件概率P(A/H[,i])，求P(H[,i]/A)。贝叶斯公式（发表于1763年）为： P(H[,i]/A)=P(H[,i])P(A/H[,i])/[P(H[,1])P(A/H[,1])+P(H[,2])P(A/H[,2])…] 这就是著名的“贝叶斯定理”，一些文献中把P(H[,1])、P(H[,2])称为基础概率，P(A/H[,1])为击中率，P(A/H[,2])为误报率[1]。
1分析1.1主观Bayes方法主观Bayes方法处理推理过程中不确定的主要理论基础是传统概率论中的Bayes理论。Bayes理论的应用要求收集大量的样品时间来作统计，以便获得事件发生的概率来表示信念的强度（确定性的程度）并作相关计算。1.2贝叶斯决策理论是主观贝叶斯派归纳理论的重要组成部分。　　贝叶斯决策就是在不完全情报下，对部分未知的状态用主观概率估计，然后用贝叶斯公式对发生概率进行修正，最后再利用期望值和修正概率做出最优决策。　　贝叶斯决策理论方法是统计模型决策中的一个基本方法，其基本思想是： 1、已知类条件概率密度参数表达式和先验概率。 2、利用贝叶斯公式转换成后验概率。 3、根据后验概率大小进行决策分类。1.3贝叶斯公式设D1，D2，……，Dn为样本空间S的一个划分，如果以P(Di)表示事件Di发生的概率，且P(Di)>0(i=1，2，…，n)。对于任一事件x，P(x)>0，则有： 1.4贝叶斯决策理论分析　　（1）如果我们已知被分类类别概率分布的形式和已经标记类别的训练样本集合，那我们就需要从训练样本集合中来估计概率分布的参数。在现实世界中有时会出现这种情况。（如已知为正态分布了，根据标记好类别的样本来估计参数，常见的是极大似然率和贝叶斯参数估计方法）　　（2）如果我们不知道任何有关被分类类别概率分布的知识，已知已经标记类别的训练样本集合和判别式函数的形式，那我们就需要从训练样本集合中来估计判别式函数的参数。在现实世界中有时会出现这种情况。（如已知判别式函数为线性或二次的，那么就要根据训练样本来估计判别式的参数，常见的是线性判别式和神经网络）　　（3）如果我们既不知道任何有关被分类类别概率分布的知识，也不知道判别式函数的形式，只有已经标记类别的训练样本集合。那我们就需要从训练样本集合中来估计概率分布函数的参数。在现实世界中经常出现这种情况。（如首先要估计是什么分布，再估计参数。常见的是非参数估计）　　（4）只有没有标记类别的训练样本集合。这是经常发生的情形。我们需要对训练样本集合进行聚类，从而估计它们概率分布的参数。（这是无监督的学习）　　（5）如果我们已知被分类类别的概率分布，那么，我们不需要训练样本集合，利用贝叶斯决策理论就可以设计最优分类器。但是，在现实世界中从没有出现过这种情况。这里是贝叶斯决策理论常用的地方。1.5贝叶斯决策判据　　贝叶斯决策理论方法是统计模式识别中的一个基本方法。贝叶斯决策判据既考虑了各类参考总体出现的概率大小，又考虑了因误判造成的损失大小，判别能力强。贝叶斯方法更适用于下列场合：　　(1) 样本(子样)的数量(容量)不充分大，因而大子样统计理论不适宜的场合。　　(2) 试验具有继承性，反映在统计学上就是要具有在试验之前已有先验信息的场合。用这种方法进行分类时要求两点：　　第一，要决策分类的参考总体的类别数是一定的。例如两类参考总体(正常状态Dl和异常状态D2)，或L类参考总体D1，D2，…，DL(如良好、满意、可以、不满意、不允许、……)。　　第二，各类参考总体的概率分布是已知的，即每一类参考总体出现的先验概率P(Di)以及各类概率密度函数P(x／Di)是已知的。显然，0≤P(Di)≤1，(i=l，2，…，L)，∑P(Di)=1。　　对于两类故障诊断问题，就相当于在识别前已知正常状态D1的概率户(D1)和异常状态0：的概率P(D2)，它们是由先验知识确定的状态先验概率。如果不做进一步的仔细观测，仅依靠先验概率去作决策，那么就应给出下列的决策规则：若P(D1)>P(D2)，则做出状态属于D1类的决策；反之，则做出状态属于D2类的决策。例如，某设备在365天中，有故障是少见的，无故障是经常的，有故障的概率远小于无故障的概率。因此，若无特B，j明显的异常状况，就应判断为无故障。显然，这样做对某一实际的待检状态根本达不到诊断的目的，这是由于只利用先验概率提供的分类信息太少了。为此，我们还要对系统状态进行状态检测，分析所观测到的信息。186

贝叶斯推理相关2 应用2.1一个心理学研究中常被引用的例子：参加常规检查的40岁的妇女患乳腺癌的概率是1%。如果一个妇女有乳腺癌，则她有80%的概率将接受早期胸部肿瘤X射线检查。如果一个妇女没有患乳腺癌，也有9.6%的概率将接受早期胸部肿瘤X射线测定法检查。在这一年龄群的常规检查中某妇女接受了早期胸部肿瘤X射线测定法检查。问她实际患乳腺癌的概率是多大？设H[,1]＝乳腺癌，H[,2]＝非乳腺癌，A＝早期胸部肿瘤X射线检查（以下简称“X射线检查”）已知P(H[,1])=1%,P(H[,2])=99%,P(A/H[,1])=80%,P(A/H[,2])=9.6%，求P(H[,1]/A)。根据贝叶斯定理，P(H[,1]/A)=(1%)(80%)/[(1%)(80%)+(99%)(9.6%)]=0.078心理学家所关心的是，一个不懂贝叶斯原理的人对上述问题进行直觉推理时的情形是怎样的，并将他们的判断结果与贝叶斯公式计算的结果做比较来研究推理过程的规律。因此有关这类问题的推理被称为贝叶斯推理。
2.2归纳推理归纳推理是一种由特殊或个别性的前提推出一般性结论的推理。其推理的一般形式如下：　　A是G 　　B是G　　C是G ……前提　　A、B、C都是D　　所以D是G……………结论推理中的前提是论据，结论是论点。比如论证"自学能成才"：　　高尔基是个人才　　华罗庚是个人才　　张海迪是个人才 ……论据(前提)　　他们都是靠自学成才的　　所以说自学能成才　　………论点（结论）　　在实际应用中可以省略成分，如上边那种形式可变成：高尔基、华罗庚、张海迪不都是自学成才的吗？　　归纳推理可分为完全归纳推理和不完全归纳推理。不完全归纳推理又可分为简单枚举归纳推理、科学归纳推理、概率预测推理和统计推理。除完全归纳推理之外，其余的全是前提与结论之间没有蕴涵关系的或然性推理。
3　贝叶斯推理研究概况3.1　基础概率忽略现象的发现与争论　　Kahneman和Tversky开辟了概率推理这一重要的研究领域。他们在20世纪70年代初期的研究首先发现，人们的直觉概率推理并不遵循贝叶斯原理，表现在判断中往往忽略问题中的基础概率信息，而主要根据击中率信息作出判断。他们一个经典性的研究[3]是：告知被试100人中有70人是律师，30人是工程师，从中随机选出一人，当把该人的个性特征描述得象工程师时，被试判断该人为工程师的概率接近0.90。显然被试忽略了工程师的基础概率只有30%。后来他们还采用多种问题验证基础概率忽略现象，如让被试解决如下出租车问题：一个城市85%的出租车属于绿车公司，15%属于蓝车公司，现有一出租车卷入肇事逃逸事件，根据一目击者确认，肇事车属于蓝车公司，目击者的可靠性为80%。问肇事车是蓝车的概率是多少。结果大多数被试判断为80%，但如果考虑基础概率则应是41%。　　这一研究结果引发了20世纪70年代以来的大量研究。有研究支持其结论，如Eddy用前述乳腺癌问题让内科医生判断，结果95%的人判断介于70%～80%，远高于7.8%。Casscells等人的研究结果表明，即使哈佛医学院的工作人员对解决如乳腺癌和与之相类似的问题都出现同样的偏差。　　但也有研究发现，在许多条件下，被试对基础概率的反应是敏感的。例如，如果问题的措辞强调要理解基础概率与判断的相关性或强调事件是随机抽样的，则基础概率忽略现象就会减少或消除。另一个引人注意的是Gigerenzer和Hoffrage1995年的研究，他们强调概率信息形式对概率判断的影响。采用15个类似前述乳腺癌的文本问题进行了实验，问题的概率信息用两种形式呈现，一种沿用标准概率形式（百分数）；一种用自然数表示的频率形式，如“1000名妇女中有10名患有乳腺癌，在患有乳腺癌的妇女中8名妇女接受早期胸部X射线测定法检查，在没有患乳腺癌的990名妇女中有95名接受早期胸部X射线测定法检查”。结果在频率形式条件下，接近50%的判断符合贝叶斯算法，而在标准概率条件下只有20%的判断符合贝叶斯算法。　　而另一些研究者对此也提出异议，有人认为他们在改变信息形式的操作中，同时也改变了其他的变量。如Lewis和Keren提出这种概率信息的改变使原来的一般性问题变成了当前单个情境的具体问题，因而问题变得容易，被试判断的改善不能说明他们的计算与贝叶斯计算一致。另外Fiedler认为，他们进行频率形式的操作为所有数据提供了一个共同的参照尺度——即所有数据都是相对于总体（1000名妇女）而言的，依靠它所有的数据变得容易比较。很明显，接受X射线检查并患乳腺癌的妇女的数量(8)与接受X射线检查并无乳腺癌的妇女的数量(95)相比或与接受X射线检查的妇女总数(103)相比都是非常小的。相反，在标准概率条件下，没有共同的参照尺度，表面上击中率(80%)远高于误报率(9.6%)，但它们是相对于大小不同的亚样本，而不是相对于总体，不能在同一尺度上进行数量比较。于是他们用4个问题进行了2（数据比较尺度：共同尺度／非共同尺度）×2（数据形式：标准概率／频率）的被试间设计，实验结果表明：不管采用哪一种数据形式，被试在非共同参照尺度条件下，判断准确性都低，在共同参照尺度下，判断准确性高。所以判断准确性与数据形式无关。　　可见，人们在概率判断中忽略基础概率是不是一种普遍现象，不同的研究之间存在较大分歧。这将促使研究者们采用各种方法对人们的概率判断推理过程进行更深入的探讨。3.2 贝叶斯推理问题的研究范式　　为了探讨上述问题，人们采用了不同的研究范式。从已有的研究看，贝叶斯推理的研究范式主要有两种，一种是文本范式，一种是经验范式。　　文本范式是实验中的问题以文本的形式直接提供各事件的基础概率和击中率、误报率等信息，让被试对某一出现的事件作出概率大小的判断。如前述的乳腺癌问题，工程师问题，出租车问题等的研究就是采用这一范式。　　然而，在实际生活中，人们进行概率判断需要从自己经历过的事件中搜集信息，而不是像文本范式那样被动得到这些信息。经验范式便克服了文本范式的这一缺陷。经验范式就是在实验中让被试通过经历事件过程，主动搜集信息来获得基础概率、击中率和误报率等各种情况的信息，然后作出概率判断。　　例如，Lovett和Schunn为了探讨基础概率信息和特殊信息对被试解决问题策略的影响，利用建筑棒任务(Building Stick Task,BST)进行了实验设计。对于一个给定的BST问题来说，计算机屏幕下方提供3条不同长度（长、中、短）的建筑棒并在上方显示一条一定长度的目标棒，要求被试用建筑棒通过加法（中棒＋短棒）策略或减法（长－中或短棒）策略制造目标棒。被试只能凭视觉估计每条棒的长度，迫使他们不能用代数方法而只能用策略尝试来解决问题。基础概率是两种策略解决问题的基本成功率；特殊信息是建筑棒与目标棒的接近类型对选择策略的暗示性和所选策略成功的预见性：长棒接近目标棒则暗示使用减法策略，中棒接近目标棒则暗示使用加法策略，如果暗示性策略成功表明该策略具有预见性，否则为非预见性。问题设计时，在200个任务中控制两种策略基本成功率（偏向：一策略高（如70%），另一策略低（如30%）；无偏向：两策略各50%）和暗示性策略对成功预见性的比例（有预见性：暗示性和非暗示性策略成功率分别为80%和20%；无预见性：暗示性和非暗示性策略成功率各50%）。研究者对被试在尝试上述任务前后分别用10个建筑棒任务进行了测试，发现被试在尝试前主要根据特殊信息选择策略，在尝试后主要依据两种策略的基本成功率信息选择策略。说明人们在尝试200个任务后对尝试中的基础概率信息的反映是敏感的。　　经验范式的优点在于，实验操作过程非常接近人们在日常生活中获得概率信息以作出判断的情况，较为真实地反映了人们实际的表征信息和作出概率判断的过程。所以许多研究者采用了这一范式。　　但研究范式的变化并没有能消除前述的争论，在不同的研究范式下都存在人们对基础概率信息的忽略或敏感现象，并出现了各种对基础概率信息忽略或敏感现象进行解释的理论。
4结束语该研究首次发现儿童能够解决贝叶斯推理问题。该结果提示，儿童的推理依赖于适当的信息表征形式，通过给儿童提供适当的信息表征形式，可以大大提高他们的问题解决能力。贝叶斯推理在过去近30年中得到了较为广泛的研究，特别自Kahneman和Tversky发现人们直觉的概率判断忽略基础概率现象以来，出现了许多理论和研究方法的更新，这些都深化了对这一问题的研究。这些研究既揭示了人们概率估计中常见的认知错误，也为人们进行贝叶斯推理至少提供了以下启示：首先，必须注意事件的基础概率，基础概率小的事件，即使某种击中率较高，其出现的总概率仍然是较小的。如现实生活中中奖的机会等就是小概率事件。其次，应该对信息的外部表征作理性的分析，不应受一些表面特征所迷惑。如击中率的高低并不决定该事件出现概率的高低。第三，不能过分相信经验策略（如代表性启发和可得性启发）。虽然经验策略有时能减轻人们的认知负荷并导致正确的概率估计，但也在许多情况下会误导我们的判断。如不要因为舆论经常宣传癌症对人们生命的威胁就认为癌症致死的概率比心脏病致死的概率更高。当然，贝叶斯推理问题仍然值得做更进一步的研究，如人们对概率信息的内部加工过程及其特点，对基础概率、击中率或误报率的敏感或忽略及其所依存的条件以及研究方法和手段的改进等。
参考文献[1] 拉塞尔，诺文人工智能：一种现代方法（第二版）人民邮电出版社 2006[2]Estes W K,Campbell J A,Hatsopoulos N,et al.Bae-rateneglects in category learning:A compari on of parallel networkand memory [3] Zhu, Liqi., Gerd Gigerenzer, Children Can Solve Bayesian Problems: The Role of Representation in Computation., Cognition， 98(2006)287-308 (SSCI， IF=3.444)

贝叶斯推理相关

相关资讯

相关文章

相关专题

网学推荐

原创论文

文章排行榜