SPSS：详解临床预测模型的区分度和校准度

　　四、模型区分度(Discrimination).

　　通过绘制ROC曲线，计算AUC，即C统计量来评价模型的判别区分能力。具体操作步骤为：

　　1. Analyze → ROC Curve

　　2. 将新生成的预测概率值PRE_1作为检验变量Test Variable ，将Event作为状态变量State Variable，并设定Value of State Variable为1

　　3. 勾选ROC Curve用于绘制ROC曲线

　　勾选Standard error and confidence interval用于输出AUC及其标准误和95%可信区间。

　　预测模型ROC曲线如下图所示，曲线下面积AUC为0.782>0.75，95% CI为0.726-0.838，提示该预测模型的区分能力较好。

　　五、模型校准度(Calibration).

　　通过Hosmer-Lemeshow拟合优度检验来评价预测模型的校准能力。结果显示，Hosmer-Lemeshow χ2=4.864，P=0.772>0.05，提示模型预测值与实际观测值之间的差异没有统计学显著性，预测模型有较好的校准能力。

　　同时SPSS还输出了Hosmer-Lemeshow检验列联表，表中将每个研究对象的预测概率从小到大进行排序，并按照十分位分成10组，分别列出了每一组实际观测值(Observed)和模型预测值(Expected)，从而可以在每一个分组下进行直观的比较，来帮助判断模型的校准能力。

　　六、模型校准图形(Calibration Plot).

　　既然在评价预测模型区分度的时候，结果可以通过绘制ROC曲线进行可视化，那么对于预测模型的校准度，我们也同样可以绘制校准图使结果可视化。

　　我们在文献中常常可以看到，校准图的绘制一般有三种形式，大家可以利用上面SPSS输出的Hosmer-Lemeshow检验列联表的结果，将其复制到Excel中(以下图形均以Excel 2013版为例)，跟着小咖一起来绘制校准图形。

　　1. 散点图.

　　根据实际观测值(Observed)和模型预测值(Expected)绘制散点图，并拟合线性趋势线，即可得到校准曲线，如下图所示的蓝线。而红线为标准曲线(y=x)，表示预测数和实际观测数完全一样。若蓝色的校准曲线和红色的标准曲线越接近，则提示模型的校准能力越好。

　　2. 条形图.

　　将每个研究对象的预测概率从小到大进行排序，并按照十分位分成10组，以条图的形式来表示每组实际观测值和模型预测值的大小，这样能够更加直观的展示在每一组内，实际观测值和模型预测值之间的差别，以此来帮助判断模型更为准确的预测区间。

　　3. 线图.

　　线图的表达方式和条形图类似，同样也是按照预测概率的十分位分成10组，以坐标点的形式来表示每组实际观测值和模型预测值的大小，并用平滑的线段依次连接起来。它不仅可以直观的展示每一组内实际观测值和模型预测值之间的差别，同时也能从整体上来判断模型的校准能力。模型预测曲线与实际观测曲线越接近，则可提示模型的校准能力越好。

　　总结.

　　Discrimination和Calibration是评价预测模型效能的两个重要指标，但比较容易混淆，最后再和大家总结一下：

　　1. Discrimination区分度，就是在模型的预测值中，看是否能够找到一个截点，使得把患者和非患者正确区分开来。如果区分的越开，且与实际情况越吻合，则提示模型的区分度越好。

　　2. Calibration校准度，就是评价模型预测值的大小和结局事件发生概率的大小是否一致。如果模型的预测值与结局实际发生概率越接近，则提示模型的校准度就越好。

　　3. 风险预测模型的Discrimination和Calibration并不一定都是同方向的。

　　如图A，模型的Discrimination很好，能够根据发病风险将不同的研究对象明显的区分开来，但是Calibration较差，预测值偏离校准曲线很远，与实际情况不符。

　　(图A)

　　(图B)，模型的Calibration很好，预测值都集中在校准曲线上，预测较为准确，但是Discrimination较差，研究对象的患病风险都比较接近，无法将其明显的区分开来。

　　(图C)，模型的Discrimination和Calibration都很好，不仅能够把不同风险的患者明显的区分开来，而且预测值都集中在校准曲线上，预测结果较为准确。　　

　　(图D)，是最为理想的模型，能够准确预测研究对象是否患者，发病风险为0或100%。

　　4. 对于一个疾病预测模型，在利用Discrimination和Calibration进行评价时，我们首先需要考虑的是模型的区分能力Discrimination，如果模型的区分度较差，不能正确的将不同风险的人群区分开来，那么它就不是一个合格的预测模型，失去了临床的应用价值，再继续评价Calibration也没有太大的意义了。

　　所以，如果你对自己建立的疾病风险预测模型有足够的信心，那么不妨也计算一下模型的Discrimination和Calibration，相信一定会得到更多同行的认可。