Logistic回归模型C统计量及95%可信区间计算

01

前 言

临床预测模型是临床研究的常用方法,通常我们构建出模型,需要对模型进行评估,其中一个重要指标是区分能力,也就是区分有病/无病、有效/无效、死亡/存活等结局的预测能力。区分能力一般用C统计量的大小来表示。

构建疾病风险预测模型最常用的是R软件,虽然R可以比较方便的计算Logistic回归模型的C统计量,但遗憾的是C统计量的95%可信区间并未直接给出,而临床预测模型的文章通常需要我们提供这些数据。

有的专家建议可以使用SPSS软件计算曲线下面积AUC的95%可信区间。

补充知识点:对于结局是二分类的回归模型,ROC曲线下面积的值与C指数是一样的,95%可信区间也是一样的。

虽然能解决这个问题,但软件换来换去,还是略显麻烦一些,我们一起来看看如何计算通过R软件计算C统计量的95%可信区间。

02

R软件操作

首先,通过复制粘贴的方法导入数据。

mydata <- read.delim(“clipboard”)

打包数据:

library(rms)ddist <- datadist(mydata)options(datadist=”ddist”)

构建logistic回归模型:

mylog<-lrm(disease~x+y, data=mydata,x=T,y=T)

计算C指数:

install.packages( “Hmisc”) library(Hmisc) Cindex <- rcorrcens(mydata$disease~predict(mylog))

C统计量=0.919,SD=0.04,计算C统计量SE的公式为SE=SD/2,进一步计算C统计量95%可信区间的上限ul和下限dl。

结果显示,C统计量=0.919,95%可信区间为0.880-0.958。

0 3

SPSS软件计算

至于计算的对不对呢?我们通过用SPSS计算,来做个验证。

首先,通过构建logistic回归模型产生一个新变量预测概率PRE_1。

然后,点击分析-ROC曲线,计算曲线下面积和其95%可信区间,

SPSS结果显示:C统计量=0.919,95%可信区间为0.880-0.958.

我们刚才通过R软件计算的结果为:C指数=0.919,95%可信区间为0.880-0.958,与SPSS软件计算结果一致。

我们以后可以直接通过R软件计算Logistic回归模型C统计量的95%可信区间。

声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!

上一篇 2020年9月24日
下一篇 2020年9月25日

相关推荐