中国卒中杂志 ›› 2021, Vol. 16 ›› Issue (08): 779-786.DOI: 10.3969/j.issn.1673-5765.2021.08.005
陈思玎, 谷鸿秋, 黄馨莹, 刘欢, 姜勇, 王拥军
摘要: 目的 探索利用机器学习基于不平衡数据预测急性新发缺血性卒中患者的院内死亡风险,并比较 机器学习模型和传统logistic模型的预测性能。 方法 以中国卒中联盟多中心登记数据库中急性新发缺血性卒中患者为研究对象,分别基于机器学 习[XGBoost模型、CatBoost模型、随机森林模型、支持向量机(support vector machine,SVM)模型]和传 统logistic方法构建患者院内死亡预测模型。按照7∶3比例随机分为训练集和测试集,训练集用于构建 预测模型,测试集用于评价模型效果。采用欠采样技术和平衡权重的方法处理死亡结局的不平衡 数据。模型的评价指标包括区分度指标ROC中AUC和校准度指标Brier分数。 结果 共纳入601 466例急性新发缺血性卒中的患者,女性231 235例(38.45%),院内死亡2206 例(0.37%)。logistic模型、XGBoost模型、CatBoost模型、随机森林模型、SVM模型预测患者院内死亡的 AUC分别是0.913±0.000、0.921±0.000、0.919±0.001、0.925±0.000和0.900±0.001,其中XGBoost模 型(P =0.0002)、CatBoost模型(P =0.0094)和随机森林模型(P<0.0001)的预测性能优于logistic模型, logistic模型表现优于SVM模型(P =0.0029)。logistic模型、XGBoost模型、CatBoost模型、随机森林模型、 SVM模型的Brier分数分别为0.115±0.001、0.096±0.001、0.093±0.001、0.084±0.000和0.045±0.001, 机器学习模型的校准度均优于logistic模型,差异有统计学意义。 结论 平衡数据处理后,机器学习模型和传统logistic模型预测急性新发缺血性卒中患者院内死亡风 险表现均良好且稳定,其中,随机森林模型的预测性能最佳,SVM模型的校准度最佳。