原创贝叶斯推理研究综述

 2007-11-25 17:27  2553 5 5 分类: MCU/ 嵌入式

人们根据不确定性信息作出推理和决策需要对各种结论的概率作出估计，这类推理称为概率推理。概率推理既是概率学和逻辑学的研究对象，也是心理学的研究对象，但研究的角度是不同的。概率学和逻辑学研究的是客观概率推算的公式或规则；而心理学研究人们主观概率估计的认知加工过程规律。贝叶斯推理的问题是条件概率推理问题，这一领域的探讨对揭示人们对概率信息的认知加工过程与规律、指导人们进行有效的学习和判断决策都具有十分重要的理论意义和实践意义。
　　　　1　什么是贝叶斯推理
　　早在18世纪，英国学者贝叶斯(1702～1761)曾提出计算条件概率的公式用来解决如下一类问题：假设H[,1],H[,2]…互斥且构成一个完全事件，已知它们的概率P(H[,i],i=1,2,…，现观察到某事件A与H[,1],H[,2]…相伴随而出现，且已知条件概率P(A/H[,i])，求P(H[,i]/A)。贝叶斯公式（发表于1763年）为：
P(H[,i]/A)=P(H[,i])P(A/H[,i])/[P(H[,1])P(A/H[,1])+P(H[,2])P(A/H[,2])…]

　　
　　这就是著名的“贝叶斯定理”，一些文献中把P(H[,1])、P(H[,2])称为基础概率，P(A/H[,1])为击中率，P(A/H[,2])为误报率[1]。现举一个心理学研究中常被引用的例子来说明：
　　参加常规检查的40岁的妇女患乳腺癌的概率是1%。如果一个妇女有乳腺癌，则她有80%的概率将接受早期胸部肿瘤X射线检查。如果一个妇女没有患乳腺癌，也有9.6%的概率将接受早期胸部肿瘤X射线测定法检查。在这一年龄群的常规检查中某妇女接受了早期胸部肿瘤X射线测定法检查。问她实际患乳腺癌的概率是多大？[2]
　　设H[,1]＝乳腺癌，H[,2]＝非乳腺癌，A＝早期胸部肿瘤X射线检查（以下简称“X射线检查”），已知P(H[,1])=1%,P(H[,2])=99%,P(A/H[,1])=80%,P(A/H[,2])=9.6%，求P(H[,1]/A)。根据贝叶斯定理，P(H[,1]/A)=(1%)(80%)/[(1%)(80%)+(99%)(9.6%)]=0.078
　　心理学家所关心的是，一个不懂贝叶斯原理的人对上述问题进行直觉推理时的情形是怎样的，并将他们的判断结果与贝叶斯公式计算的结果做比较来研究推理过程的规律。因此有关这类问题的推理被称为贝叶斯推理。
　　　　2　贝叶斯推理研究概况
　　　　2.1　基础概率忽略现象的发现与争论
　　Kahneman和Tversky开辟了概率推理这一重要的研究领域。他们在20世纪70年代初期的研究首先发现，人们的直觉概率推理并不遵循贝叶斯原理，表现在判断中往往忽略问题中的基础概率信息，而主要根据击中率信息作出判断。他们一个经典性的研究[3]是：告知被试100人中有70人是律师，30人是工程师，从中随机选出一人，当把该人的个性特征描述得象工程师时，被试判断该人为工程师的概率接近0.90。显然被试忽略了工程师的基础概率只有30%。后来他们还采用多种问题验证基础概率忽略现象[4]，如让被试解决如下出租车问题：一个城市85%的出租车属于绿车公司，15%属于蓝车公司，现有一出租车卷入肇事逃逸事件，根据一目击者确认，肇事车属于蓝车公司，目击者的可靠性为80%。问肇事车是蓝车的概率是多少。结果大多数被试判断为80%，但如果考虑基础概率则应是41%。
　　这一研究结果引发了20世纪70年代以来的大量研究。有研究支持其结论，如Eddy用前述乳腺癌问题让内科医生判断，结果95%的人判断介于70%～80%，远高于7.8%[2]。Casscells等人的研究结果表明，即使哈佛医学院的工作人员对解决如乳腺癌和与之相类似的问题都出现同样的偏差[5]。
　　但也有研究发现，在许多条件下，被试对基础概率的反应是敏感的。例如，如果问题的措辞强调要理解基础概率与判断的相关性[6]或强调事件是随机抽样的[7]，则基础概率忽略现象就会减少或消除。另一个引人注意的是Gigerenzer和Hoffrage1995年的研究，他们强调概率信息形式对概率判断的影响。采用15个类似前述乳腺癌的文本问题进行了实验，问题的概率信息用两种形式呈现，一种沿用标准概率形式（百分数）；一种用自然数表示的频率形式，如“1000名妇女中有10名患有乳腺癌，在患有乳腺癌的妇女中8名妇女接受早期胸部X射线测定法检查，在没有患乳腺癌的990名妇女中有95名接受早期胸部X射线测定法检查”。结果在频率形式条件下，接近50%的判断符合贝叶斯算法，而在标准概率条件下只有20%的判断符合贝叶斯算法[8]。
　　而另一些研究者对此也提出异议，有人认为他们在改变信息形式的操作中，同时也改变了其他的变量。如Lewis和Keren[9]提出这种概率信息的改变使原来的一般性问题变成了当前单个情境的具体问题，因而问题变得容易，被试判断的改善不能说明他们的计算与贝叶斯计算一致。另外Fiedler认为[10]，他们进行频率形式的操作为所有数据提供了一个共同的参照尺度——即所有数据都是相对于总体（1000名妇女）而言的，依靠它所有的数据变得容易比较。很明显，接受X射线检查并患乳腺癌的妇女的数量(8)与接受X射线检查并无乳腺癌的妇女的数量(95)相比或与接受X射线检查的妇女总数(103)相比都是非常小的。相反，在标准概率条件下，没有共同的参照尺度，表面上击中率(80%)远高于误报率(9.6%)，但它们是相对于大小不同的亚样本，而不是相对于总体，不能在同一尺度上进行数量比较。于是他们用4个问题进行了2（数据比较尺度：共同尺度／非共同尺度）×2（数据形式：标准概率／频率）的被试间设计，实验结果表明：不管采用哪一种数据形式，被试在非共同参照尺度条件下，判断准确性都低，在共同参照尺度下，判断准确性高。所以判断准确性与数据形式无关。
　　可见，人们在概率判断中忽略基础概率是不是一种普遍现象，不同的研究之间存在较大分歧。这将促使研究者们采用各种方法对人们的概率判断推理过程进行更深入的探讨。
　　　　2.2　贝叶斯推理问题的研究范式
　　为了探讨上述问题，人们采用了不同的研究范式。从已有的研究看，贝叶斯推理的研究范式主要有两种，一种是文本范式，一种是经验范式。
　　文本范式是实验中的问题以文本的形式直接提供各事件的基础概率和击中率、误报率等信息，让被试对某一出现的事件作出概率大小的判断。如前述的乳腺癌问题，工程师问题，出租车问题等的研究就是采用这一范式。
　　然而，在实际生活中，人们进行概率判断需要从自己经历过的事件中搜集信息，而不是像文本范式那样被动得到这些信息。经验范式便克服了文本范式的这一缺陷。经验范式就是在实验中让被试通过经历事件过程，主动搜集信息来获得基础概率、击中率和误报率等各种情况的信息，然后作出概率判断。
　　例如，Lovett和Schunn[11]为了探讨基础概率信息和特殊信息对被试解决问题策略的影响，利用建筑棒任务(Building  Stick  Task,BST)进行了实验设计。对于一个给定的BST问题来说，计算机屏幕下方提供3条不同长度（长、中、短）的建筑棒并在上方显示一条一定长度的目标棒，要求被试用建筑棒通过加法（中棒＋短棒）策略或减法（长－中或短棒）策略制造目标棒。被试只能凭视觉估计每条棒的长度，迫使他们不能用代数方法而只能用策略尝试来解决问题。基础概率是两种策略解决问题的基本成功率；特殊信息是建筑棒与目标棒的接近类型对选择策略的暗示性和所选策略成功的预见性：长棒接近目标棒则暗示使用减法策略，中棒接近目标棒则暗示使用加法策略，如果暗示性策略成功表明该策略具有预见性，否则为非预见性。问题设计时，在200个任务中控制两种策略基本成功率（偏向：一策略高（如70%），另一策略低（如30%）；无偏向：两策略各50%）和暗示性策略对成功预见性的比例（有预见性：暗示性和非暗示性策略成功率分别为80%和20%；无预见性：暗示性和非暗示性策略成功率各50%）。研究者对被试在尝试上述任务前后分别用10个建筑棒任务进行了测试，发现被试在尝试前主要根据特殊信息选择策略，在尝试后主要依据两种策略的基本成功率信息选择策略。说明人们在尝试200个任务后对尝试中的基础概率信息的反映是敏感的。
　　经验范式的优点在于，实验操作过程非常接近人们在日常生活中获得概率信息以作出判断的情况，较为真实地反映了人们实际的表征信息和作出概率判断的过程。所以许多研究者采用了这一范式[12-14]。
　　但研究范式的变化并没有能消除前述的争论，在不同的研究范式下都存在人们对基础概率信息的忽略或敏感现象，并出现了各种对基础概率信息忽略或敏感现象进行解释的理论。
　　　　3　几种主要理论
　　如前所述，人们进行概率判断时，在一些条件下忽略基础概率，在另一些条件下并没有忽略基础概率。那么，人们是如何作出判断的呢？哪些因素在影响人们的概率推理呢？对此，不同的研究者提出了不同的观点。
　　　　3.1　启发法策略论
　　Kahneman和Tversky认为人们直觉的概率推理受认知策略的影响，这是一种依赖于经验的判断或猜测。所以，经常会作出错误的判断。主要的认知策略包括“代表性启发法”和“可得性启发法”。
　　代表性启发法是指人们倾向于根据样本是否代表或类似总体来判断其出现的概率，愈有代表性的，被判断为出现的概率愈大，愈少代表性的被判断为出现的概率愈小。例如，在他们的研究中，要求被试估计某城市有6个孩子的家庭中，男(B)女(G)儿童出生顺序为GBGBBG和BGBBBB（B代表男孩，G代表女孩）的比例，结果大多数被试估计前者远高于后者[3]。因为前者更能代表整个人口中的比例，其次它看起来更随机。但从机会来说，两者的概率应是相等的。
　　可得性启发法是指人们倾向于根据某现象在知觉或记忆中容易得到的事例来估计其出现是概率，如他们在实验中要求被试估计英语中以字母R、L、N、K、V开头的单词数和以它们为第三个字母的单词数，结果绝大部分被试估计前者远多于后者[15]。但实际上前者是的基础比例远低于后者的基础比例。判断错误的原因在于人们更容易回忆出以这些字母开头的单词，而不容易回忆起它们在中间位置的单词。这与人们的记忆组织有关。
　　　　3.2　自然抽样空间假说
　　Gavanski等[16]认为判断一个事件出现的概率时，人们从什么范围抽取一样本有一种自然的抽样倾向，他们称之为“自然抽样空间”，如果直接从自然的抽样空间中抽取的样本对判断事件的概率是无偏差的，则被试容易作出准确的判断；但若要求被试从非自然抽样空间中抽样才能正确判断事件的概率，则被试容易作出错误的判断。如前述乳腺癌问题，被试从患乳腺癌的人群中抽样来判断接受X射线检查的概率较为自然，因为被试更容易认为患乳腺癌的人要接受X射线检查。但实验任务是要求从接受X射线的人群中抽样来判断患乳腺癌的概率，这与被试的自然抽样方向相反，导致被试对问题进行了错误的表征，对照贝叶斯公式，被试的错误是把P(H[,1]/A）表征为P(A/H[,1])，刚好与问题的要求相反，从而作出了错误的判断。
　　　　3.3　频率效应论
　　Gigerenzer和Hoffrage[8]同意自然抽样的观点，但他们所指的“自然”是人们加工概率信息的自然方式，认为人们是通过事件的频率而不是标准概率（百分数）来获得环境信息的，虽然两种信息形式的意义相同，但人们对具有同等意义的不同外部信息形式会产生不同的心理表征。他从进化论的角度出发认为，人类进行概率推理已经进化了一种认知算法规则系统，它不适合加工以百分数表示的标准概率信息，而适合加工以自然数表示的频率信息，因为标准概率是在概率论发展以后才被人们认识的，而频率在人类进化的早期就被认识了，所以人们对事件的频率容易编码而且几乎是自动的，而对标准概率难于编码。因此，它们预言当问题的陈述从标准概率形式转变为频率形式时，对条件概率的直觉推理会得到显著改善，并在前述的他们的实验中得到了支持。如果被试在判断中是忽略基础概率的，那么在标准概率改为频率形式时也应表现出来，但他们的实验表明加工频率信息的被试判断的准确性明显高于加工标准概率信息的被试。然而，正如前面所述，他们的结论也受到其他研究的挑战。
　　　　3.4　抽样加工理论
　　Fiedler[10]认为对概率判断最根本的影响既不是抽样方向也不是概率信息形式，而是抽取不同样本所得的数据需要进行不同的认知加工。概率判断中的认知加工分为两个过程，一是归纳加工过程，即利用记忆中或知觉到的样本进行的概率估计，如旅行前根据自己的经验估计某个地区为晴天或雨天的概率。然而，由于受许多主观（如个人偏好、期望等）和客观条件（如过去的经验是在一定时空下获得的）的限制，根据可利用的样本来估计概率会存在许多潜在的偏差，所以，要作出正确的判断就必须调整抽样过程中潜在的偏差，这是一个元认知控制过程，通过它，不同来源的样本得到整合并运用于最后的概率判断，这需要运用大量基于规则的元认知操作，包括使用逻辑规则、概率演算、统计学知识或元认知知识。如变换在不同尺度上估计的数量、颠倒条件概率、对来源于有偏差的样本进行矫正等。
　　判断者之所以忽略基础概率而不遵循贝叶斯原理，是因为他们缺乏元认知手段，不能调整在抽样过程中潜在的偏差。为验证此结论，他们用4个问题（在此仅以乳腺癌为例）在计算机上设计了A、B两种卡片盒，分别让两组被试自己搜索信息，告知被试A卡片盒的每张卡片正面标明是否患有乳腺癌的案例，背面告知是否参加X射线检查，B卡片盒中每张卡片的正面和背面与前一个卡片盒的卡片内容相反，设计时设定基础概率、击中率和误报率。屏幕的左边行显示正面内容，右边小窗口显示反面内容，被试点击左边行后才出现右边窗口的反馈信息，确认后左边行变成灰色，右边窗口消失。信息搜索完毕时，屏幕底部显示一刻度尺，用于被试标示判断接受X射线检查的妇女患乳腺癌的概率。这样，看A卡片盒的被试明显觉得乳腺癌的击中率高，非乳腺癌的击中率低，但做判断时需要进行问题角度的转换；而看B卡片盒的被试明显了解到接受X射线检查的妇女中患乳腺癌的案例很少，并可直接运用于问题判断。结果表明：从B卡片盒获取信息的被试判断准确性高，从A卡片盒获取的被试判断准确性低。从而验证了他们的结论。
　　　　4　小结
　　贝叶斯推理在过去近30年中得到了较为广泛的研究，特别自Kahneman和Tversky发现人们直觉的概率判断忽略基础概率现象以来，出现了许多理论和研究方法的更新，这些都深化了对这一问题的研究。这些研究既揭示了人们概率估计中常见的认知错误，也为人们进行贝叶斯推理至少提供了以下启示：首先，必须注意事件的基础概率，基础概率小的事件，即使某种击中率较高，其出现的总概率仍然是较小的。如现实生活中中奖的机会等就是小概率事件。其次，应该对信息的外部表征作理性的分析，不应受一些表面特征所迷惑。如击中率的高低并不决定该事件出现概率的高低。第三，不能过分相信经验策略（如代表性启发和可得性启发）。虽然经验策略有时能减轻人们的认知负荷并导致正确的概率估计，但也在许多情况下会误导我们的判断。如不要因为舆论经常宣传癌症对人们生命的威胁就认为癌症致死的概率比心脏病致死的概率更高。当然，贝叶斯推理问题仍然值得做更进一步的研究，如人们对概率信息的内部加工过程及其特点，对基础概率、击中率或误报率的敏感或忽略及其所依存的条件以及研究方法和手段的改进等。
【参考文献】
　　[1]　Mellers  B  A,McGraw  A  P.How  to  improve  Bayesian  reasoning:A  comment  on
Gigerenzer  and  Hofrage(1995).Psychological  Review,1999,106(2):417-424
　　[2]　Eddy  D.M.Probabilistic  reasoning  in  clinic  medicine:Problemsand  opportunities.In:
Kahneman  D,Slovic  P,Tverskey  A.ed.Judgementunder  uncertainty:Heuristics  and  biases.
Cambridge  UniversityPress,1982.249-267
　　[3]　Kahneman  D,Tversky  A.Subjective  probability:A  judgementof  representativeness.
Cognitive  Psychology,1972,3:430-454
　　[4]　Kahneman  D,Slovic  P,Tversky  A.Judgement  under  uncertainty:Heuristics  and  biases.
Cambridge,England:Cambridge  UniversityPress,1982
　　[5]　Cassecells  W,Schoenberger  A,Crayboys  T.Interpretation  byphysicians  of  clinical
laboratory  results.New  England  Journalof  Medicine,1978,299:999-1000
　　[6]　Bar-Hillel  M.The  base  rate  fallacy  in  probabilityjudgements.Acta  Psychology,1980,44:
211-233
　　[7]　Gigerenzer  G,Hell  W,Blank  H.Presentation  and  content:Theuse  of  base  rates
as  a  continuous  variable.Journal  ofExperimental  Psychology:Human  Perception
and  Performance,1988,14:513-525
　　[8]　Gigerenzer  G,Hoffrage  U.How  to  improve  Bayesian  Reasoningwithout  instruction:
Frequency  fomats.Psychological  Rewiew,1995,102(4):684-704
　　[9]　Lewis  C,Keren  G.On  the  difficulties  underlying  Bayesianreasoning:A  comment  on
Gigerenzer  and  Hofrage.PsychologicalReview,1999,106(2):411-416
　　[10]　Fiedler  C,Brinkmann  B,Betsch  T,Wild  B.A  sampling  approachto  biases  in  conditional
probabilityjudgments:Beyond  base  rateneglect  and  statistical  format.Journal  of
Experimental  Psychology:General,2000,129:399-418
　　[11]　Lovett  M  C,Schuun  C  D.Task  Rpresentation,StrategyVariability,and  Base-Rate  Neglect.Journal  of  ExperimentalPsychology:General,1999,128(2):107-130
　　[12]　Gluck  M  A,Bower  G.From  conditioning  to  category  learning:An  adaptive  network
model.Journal  of  Experimental  psychology:General,1988,117:227-247
　　[13]　Estes  W  K,Campbell  J  A,Hatsopoulos  N,et  al.Bae-rateneglects  in  category  learning:A  comparison  of  parallel  networkand  memory
storage-retrieval  models.Journal  of  ExperimentalPsychology:Learning,Memory,and
Cognition,1989,15:556-571
　　[14]　Maddox  W  T.Base-rate  effects  in  multidimensionalperceptual  categorization..Journal  of  Exprimental
  Psychology:Learning,Memory,and  Cognition,1995,21:288-301
　　[15]　Tversky  A,Kahneman  D.Availability:A  heuristic  forjudging  frequency  and
probability.Cognitive  Psychology,1973,5:207-232
　　[16]　Cavanski  I,Hui  C.Natural  sample  spaces  and  uncertainbelief.Journal  of
Personality  and  Social  Psychology,1992,63:766-780