贝叶斯因子及其在 JASP 中的实现
摘 要
自20世纪以来,统计推断在科学研究中起到越来越重要的作用,科学研究的结论也越来 越依赖于统计推断的正确应用。目前使用最为广泛的统计推断方法是零假设检验(Null hypothesis significance test, NHST)(见Wasserstein & Lazar, 2016 。然而,与NHST 在各个领域中广泛使用相伴的是研究者对 NHST及p值的误解和盲目使用,因此可能反而会带来了 些消极的后果。例如,p值被用来支持不合理且无法重复的研究结果,引起了关于NHST是否适合于科学研究的争论。在这个背景之下,有研究者推荐使用贝叶斯因子替代NHST。
贝叶斯因子(Bayes factor)是贝叶斯统计(Bayesian statistics)中用来进行模型比较和假设 检验的方法。在假设检验中,其代表的是当前数据对零假设与备择假设支持的强度之间的比率。 正如下一节将要详述的,贝叶斯因子能够量化地反映当前数据对各个假设支持的程度,因此可能更加适用于科研中的假设检验。但是,由于贝叶斯因子的统计原理及实现相对复杂,其在各个学科的研究中并未获得广泛关注。例如,虽然早在上世纪 60 年代已有研究者试图将贝叶斯 因子引入心理学研究,却一直未能获得广泛使用。
但是,随着计算机运算能力的大大提升,贝叶斯统计在计算机等领域获得了巨大的成功。同时,研究者们开发出用于贝叶斯统计的工具,如 WinBUGs 、JAGS 、Stan 等,这些软件的出现,促进贝叶斯方法在各个研究领域中的使用。在这些贝叶斯统计相关的工具中,也有用于计算贝叶斯因子的工具,如R语言中的BayesFactor。而在心理学及相关领域,不少研究者也试图引入贝叶斯统计的方法,尤其是在最近大量心理学研究无法重复的背景之。但对于不少心理学及相关领域的研究者来说,使用R语言或其他计算机语言进行贝叶 斯因子计算仍然有一些困难。为解决这一障碍,研究者们进一步开发了与商业统计软件 SPSS具有类似图形界面的统计工具JASP (https://jasp-stats.org/, JASP team 2017),简化了贝叶斯因子的计算。
1 贝叶斯因子的原理
贝叶斯因子是贝叶斯统计在假设检验上的应用,因此要理解贝叶斯因子,首先需要理解贝叶斯统计的原理。
1.1 贝叶斯统计的简介
贝叶斯学派(Bayesian statistics)与频率学派(Frequentist statistics)是统计学中主要的两个学派,其最核心的差异在于他们对于概率(probability)有着不一样的定义。对于频率学派而 言,概率是通过无数次重复抽样中频率(frequency)的预期值。与之相反,贝叶斯学派则认为, 概率是对一件事情的相信程度,从0 到1 表示人们基于事先所获得的信息,在多大程度上相信 某件事情是真的。由于不同人对同一事件的相信程度可能不同,因此,贝叶斯学派的概率是具 有主观性。但贝叶斯学派的概率却不是任意的:人们通过合理的方式,不断获取并更新已知信 息,可以最终消除主观性,从而达成一致。
由于频率学派将概率定义为长期行为表现的结果,因此要理解频率学派的概率,通常需要 假想那些尚未发生的事件。例如,在NHST框架之下,p值的意义是假定H0 为真的情况下,出现当前结果及比当前结果更加极端结果的概率。换句话说,p值表达的是:如果以完全相同的条件无数次地重复当前实验,这些实验中有多少大比例会出现当前结果模式或者更极端结果 的模式。因此,p值的意义暗含一个假设:我们能够进行无数次相同的试验。但是实际上,研究者往往难以理解这种对未出现的无数次相同试验的假定,而误认为p值是一次检验中拒绝零 假设时犯错误的概率。这种对NHST的误解,恰好是带有贝叶斯统计色彩,即根据当前的数据计算某个模型正确或错误的概率。
与频率学派统计不同,贝叶斯统计最大的特点之一在于:贝叶斯统计考虑了个体对不同可 能性的可信度(credibility),而改变其可信度的,正是人们不断获得的数据。这种思维方式 与人们在日常生活中的经验非常相似:当我们不断地获得支持某个观点的证据时,我们会更加相信该观点。
虽然贝叶斯统计对概率的理解与频率学派不同,但是其对概率的计算却严格依照概率的基 本原则:加法原则与乘法原则。贝叶斯统计中最核心的贝叶斯法则(Bayes rule),也是根据简 单的加法原则与乘法原则推导而来。依据概率的乘法原则,随机事件A与随机事件B 同时发生的概率为:
公式1 即为联合概率的公式,即随机事件A 与随机事件B 同时发生的概率。其意义为:
随机事件A与随机事件B的联合概率(p(A∩B))为,在B发生的条件下A发生的概率(p(A|B)) 与B发生的的概率(p(B))的乘积,也等于在A发生的条件下B发生的概率(p(B|A))与事件A 发生的概率(p(A))的乘积。其中,p(A|B)和p(B|A)均为条件概率(conditional probability),二者意义不同。
对公式1进行变换,即可以得到如下公式:
公式2即为贝叶斯定理公式。其代表的意义是,如果我们要计算随机事件B发生的条件 下A 发生的概率(p(A|B)),可以通过使用A与B同时发生的概率(p(A∩B))除以B 发生的 概率(p(B)),也就等于在A发生的条件下B发生的概率,与A发生概率的乘积,再除以B发 生的概率。公式2将两个条件概率联系起来,从而使得计算不同的条件概率成为可能。
在贝叶斯统计的框架之下,公式2可以看作是一次信息的更新。假定我们需要根据一次实验收集到的数据(data)来检验某个理论模型为真的可能性。如果我们以心理学研究中常用的 零假设H0为例,则可以将公式2改写如下:
p(H0|data)表示数据更新之后理论模型H0正确的概率,即后验概率(posterior);p(H0)表示 更新数据之前认为理论模型H0正确的概率,即先验概率(prior);而p(data|H0)则是在模型H0之下,出现当前数据的概率,即边缘似然性(marginal likelihood)。由此可以看出,在贝叶斯统计之中,一次数据收集(实验)的主要功能在于帮助我们更新理论模型的可信度。
根据公式3,我们可以使用数据对任意的模型为真的概率进行更新。在假设检验中,我们可以根据观测数据同时对零假设(理论模型H0)和备择假设(理论模型 H1)的可信度进行更新(分别见公式3和公式4),得到它们更新的后验概率。
在公式6中,BF10中下标的1,代表的是H1,0代表的是H0,因此,BF10即代表的是H1与H0对比的贝叶斯因子,而BF01即代表的是H0与H1对比的贝叶斯因子。例如,BF10 =19表示的是,在在备择假设H1为真条件下出现当前数据的可能性是虚无假设H0条件下出现当前 数据的可能性的19倍。
从贝叶斯因子的公式中可以看出,贝叶斯因子不依赖于对先验假设(p(H1)和p(H0))。更重要的是,正是贝叶斯因子根据当前数据将先验概率更新为后验概率。
因此,NHST与贝叶斯因子回答了不同的问题。NHST试图回答“假定我们已知两个变量的关系(如,两种条件没有差异),出现当前观测数据的模式或者更加极端模式的概率(p(more extreme > observed data|H0))有多大”的问题;而贝叶斯因子试图回答的是,在当前数据更可 能在哪个理论模型下出现。考虑到研究者往往想知道当前数据模式条件下,H0 或者H1 为真的 概率(分别为 p(H0|data)与p(H1|data)),在假设检验中,贝叶斯因子具有一些NHST不具备的优势,下一小节将对这些优势进行详细说明。
对贝叶斯因子大小的解读,在Jeffreys (1961) 的基础上,Wagenmakers, et al. (2017) 对贝叶斯因子的大小所代表的意义进行原则上的划分(见表2)。但是这个划分仅是大致参考,不能严格对应,研究者需要根据具体的研究来判断贝叶斯因子的意义。
1.2 备择假设的默认先验
由于贝叶斯因子中先验概率具有至关重要的作用,因此如何选择备择假设的先验分布变成了一个非常重要的问题。其中一个较为合理的做法是,根据采用该范式的先前研究(如元分析得到的效应量)来假设备择假设的先验分布。但这种做法在很多情况下并不现实:首先根据范式的不同,效应量的可能分布不同;更重要地,由于许多研究本身具有一定的探索性,并没有先前研究结果作为指导。因此,更加常用的做法是使用一个综合的、标准化的先验。
例如,在贝叶斯t检验中,零假设的先验比较好确定,但是对于备择假设的先验分布应该 如何选择,则比较困难。有研究者指出,使用柯西分布(Cauchy distribution)可能是比较合理 的选择。与标准正态分布相比,柯西分布在0附近概率密度相对更小一些,因此其比 标准的正态允许更多较大的效应(见图 1);而与均匀分布(即效应量在所有值上的分布完全相 同)相比,柯西分布更偏好零假设一些。因此,对于备择假设的先验分布,可以如下表示:
Jeffreys (1961)最早提出在贝叶斯因子中使用柯西分布作为先验来比较两样本的问题。最近研究者的进一步验证表明,柯西分布可以作为先验用于计算心理学常规假设检验中的贝叶斯因 子,如t检验、ANOVA和相关分析等。这些验证性的工作,为贝叶斯因子在心理学 及相关学科研究中的应用打下了基础。
2 贝叶斯因子的优势
如前所述,在假设检验中,贝叶斯因子除了更加符合人们的直觉之外,还具有一些 NHST具备的优势。这些优势可以总结为五个方面(见表1)。以下将从这五个方面展开。
2.1 同时考虑H0和H1
此外,p值等于在H0为真的情况下,多次重复实验观察到与当前数据一样极端或者更加极端结果的概率,即p值是假定H0为真时概率分布的尾端面积的积分值。因此,对p值的理 解需要假定存在着比当前数据更加极端的数据模式,而人们在直觉上并不太擅长做出这种假定,常常会带来对p值的误解。
因此,由于贝叶斯因子分别量化了当前数据对H0和H1的支持强度,对H0和H1同等对待,而不是像NHST一样完全不考虑H1。另外,贝叶斯因子不需要假定未出现的数据,也更加符合人们的直觉。
2.2 可以用来支持 H0
同样,由于同时量化了当前数据对H0和H1各自的支持强度,贝叶斯因子可以用来支持H0。在贝叶斯的框架下,只要H0和H1假设是具体的,贝叶斯因子就可以根据当前数据对他们的后验概率进行一次更新,从而得到当前数据更支持哪个假设的结果。如果H0 比H1 更加符合数据的模式,则贝叶斯因子能够表明当前数据支持H1。但是,在传统的NHST框架之下,由于假设检验仅在H0为真的假设下进行,仅凭借大于显著性性水平(比如0.05或0.005)的p值是无法为H0 是否为真提供证据。比如,仅依据假设检验的结果p= 0.20并不能断言有证据 表明没有效应(evidence of absence)(除非结合样本量、效应量和统计效力Power做出综合判断)。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!