重复测量数据是指对同一个体在不同时间点的测量,这种数据在医学研究中较为常见,比较典型的数据形式如:
对一组人群分别在干预前后不同的时间点观察其结局情况。这种研究通常是为了比较不同时间点的差异情况,或者分析时间变化趋势。
或将一组人群分配至不同组别,对每组人群分别在干预前后不同的时间点观察其结局。这种研究通常要比较不同组的差异,有的再深入点,可能还要分析几个组的变化趋势是否有差异。
重复测量数据的个体观测值不完全独立,数据间存在趋同性,如果采用独立数据的统计推断方法(如t检验、方差分析)进行分析,往往会增大Ⅰ类错误发生的概率,容易使本来无统计学意义的结果变成了有统计学意义。事实上,这种情况在审稿中甚至在已发表的文章中都不算少见。
基于不同的研究目的和分析策略,重复测量数据可采用不同的分析方法,医学中常见的有重复测量方差分析、广义估计方程、多水平模型。
1、重复测量方差分析思路
重复测量方差分析,顾名思义,仍是属于方差分析的范畴,因此其思路也是基于方差分解。
重复测量方差分析与单变量方差分析思路的不同之处在于:单变量方差分析是对某一变量的方差进行分解,而重复测量数据存在多个时间点的测量结果,并不仅有1个变量,而有多个变量,从而形成多个变量的方差-协方差矩阵。
这里关键要弄清楚,1个变量,只有方差,而2个及以上变量,不仅有每个变量的方差,还有表示几个变量之间关系的协方差,所以多个变量就会形成一个方差-协方差矩阵。
因此,重复测量方差分析不是对1个变量的方差进行分解,而是对多个变量的方差-协方差矩阵进行分解。
为了给大家一个直观印象,下面就是一个协方差矩阵:
从左上到右下的对角线上的4个值,是4个变量的方差;其它值是行列对应的变量的协方差(反映了2个变量的相关大小)。
但不管是方差,还是方差-协方差矩阵,从分解结构来看,二者仍是一致的。单变量方差分析是将总的离均差平方和(SStotal)分解为模型解释的变异(SSmodel,重复测量数据的比较重,通常指组别因素)和误差变异(SSerror)。重复测量方差分析则是将总的交叉乘积平方和(SSCP)矩阵T(SSCPT)分解为模型SSCP矩阵H(SSCPH)和误差SSCP矩阵E(SSCPE)。
所以这里主要还是思路的理解:普通方差分析和重复测量方差分析的分解方式都一样,只不过一个是对方差分解,一个是对方差-协方差矩阵分解。
2、重复测量方差分析的用途
从实际应用来看,重复测量方差分析可用于以下目的:
比较组间有无差异,即两条随时间变化的曲线在高低上是否不同。
比较各时间点间有无差异,即不同时间点的值是否有不同。
比较组间的时间变化趋势有无差异,即随时间变化的多条曲线是否平行。注意与组间差异区分开。
3、重复测量方差分析的SAS软件实现
例1:某药物开展一项治疗急性脑梗死的研究,将20名急性脑梗死患者随机分为两组,每组10例,分别接受试验药和对照药,于治疗前(0周)、治疗后1、2、3、4周,分别以某症状评分指标Y作为治疗效果指标。欲实现以下目的:(1)两组的Y值差异是否具有统计学意义;(2)不同时间点的Y值差异是否有统计学意义;(3)两组的Y值变化趋势有无统计学差异。
重复测量方差分析的SAS程序如下:
data ex1;
input id group w0 w1 w2 w3 w4;
/*注意数据输入格式,以每个时间点观测结局作为1个变量,形成多变量结局*/
cards;
……(此处省略数据)
;
proc glm data=ex1;
class group;
model w0-w4=group/nouni;
repeated time 5(0 1 2 3 4) contrast(1)/printe summary;
/*time指定时间点个数,如果时间点间隔不等,要在括 中指定具体的时间点值,如1、2、4、7;如果时间点间隔相等(如本例),也可不指定具体时间点。contrast(1)表示以第1次时间点为参照,其余时间点与参照时间点进行对比*/
manova h=group;
/*指定输出多变量的组间比较结果,如果不指定该语句,默认不输出组间比较结果*/
run;
为了结果解释方便,首先在表1中列出了对照组和试验组在5个时间点的均值和标准差,图1则直观展示了两组的变化趋势。
重复测量方差分析的结果,绝大多数统计软件都会给出4个统计量:Wilks′lambda、 Pillai′s trace、Hotelling‐Lawley trace 和 Roy′s largest root。
4个统计量的值虽然各不相同,但它们所对应的F值在绝大多数情况下都是一致的,我大概做了十多年统计分析,尚未遇到过这4个统计量所对应的F值不同的特殊情形,估计各位也很难遇上。因此实际中通常任选其一即可。以Wilks′lambda统计量为例,例1的主要结果见表2。
表2结果显示,以0.05为检验水准,两组间差异有统计学意义(P=0.006),5个时间点的差异有统计学意义(P= 0.002),组别和时间的交互效应无统计学意义。交互项反映了两条曲线是否平行,尽管从图1来看,两条曲线似乎并不平行,但一定要注意,统计学中不能只看表面,还要看统计学的分析结果。趋势变化似乎有差异,然而这种差异并无统计学意义。 严格来说就是:尚不能拒绝两条曲线平行的假定。
上述SAS程序还同时给出了各个时间点的总体比较和分组比较结果:
总体比较是指,以某一时间点为参照(程序中通过contrast指定以第1个时间点为参照),所有其他时间点与参照时间点的比较结果;
分组比较是指,以某一时间点的两组差值为参照,所有其他时间点的两组差值与参照时间点两组差值的比较结果。表3给出了以第 1个时间点为参照,其他时间点与参照点的总体比较和分组比较结果。
注意统计软件中不会说的这么直白,名字也不叫“总体比较”和“分组比较”,但它们反映的意思基本如此。
表3结果提示,从所有观测值来看(不分组),治疗后第 3、4 周与治疗前相比差异均有统计学意义(P值均
建议结合结果仔细理解一下结果的解释。
另外,不同软件给出的结果展示形式不同,SAS和SPSS就不一样,结果虽然一样,但是展示方式不一样。大家要能分清结果的含义。重复测量方差分析的结果比较多,需要仔细研读,然后根据结果结合自己的专业,做出合理的解释。
另外还要注意一个问题,对于时间点间隔不等的情形,SAS分析没有问题,在程序中指定具体时间点即可。但SPSS尚做不到,只能做时间点间隔相等。如果要做,必须在SPSS中编程实现。(不过我没用过最新版的SPSS,不知道最新版的是否可实现,因为本人平时不大用SPSS。如果有说的不对的地方,请读者指正。谢谢)
4、重复测量方差分析的局限性
(1)重复测量方差分析要求数据必须是均衡(balance)的,即每一时间点测量值的数量必须相等。这一点在实际中很难满足,例如,每组 20人,分别在治疗前、治疗后 1、3、 6个月进行重复测量,很难保证每个人都能完成结果的观测;而且,即使都能完成,也难以保证这些人都恰好在 1、3、 6个月的固定时间点完成观测。对于某一被观测者,哪怕只有一个时间点的数据缺失或不符合时间方案,软件分析中 该观测者的整条记录都会被删除。
(2)重复测量方差分析要求方差‐协方差矩阵满足多元正态性和多元方差齐性。这两个条件,尤其是多元方差齐性,在实际中很容易被忽略,然而临床研究中却经常存在这种问题。例如,对高血压和非高血压两组人群在多个时间点进行重复测量,通常情况下,正常人群的收缩压往往变化不大,而血压高的人群,其收缩压往往变动更大,这就容易导致两组人群的方差‐协方差矩阵方差不等。
(3)重复测量方差分析对时间变化趋势的分析不够充分。重复测量数据中,时间并不是以一个自变量的形式纳入模型分析,而是本身就作为模型的一部分。因此组别与时间的交互效应,难以深入分析,其变化趋势尽管可以通过正交多项式进行简单探索,但形式有限,不够灵活。例如,假定有试验组和对照组各4个时间点观测值,如果想要了解两组的每一时间点相对初始时间点的变化情况,重复测量方差分析就难以实现。
总的来说,重复测量方差分析作为最简单的处理重复测量数据的方法,相对临床大夫来说还是比较友好的,实现的技术门槛不高,结果解释的话,只要大家仔细看结果,也不是很难。如果想做相对深入的结果,也可以实现,比如趋势变化等等。当然,局限性也有,上述三条很关键,尤其正态性和方差齐性,可能很多人并没有关注,然而有时确实容易导致出现问题。
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!