二分类logistic回归中纳入多少自变量合适?
2016-09-13 陶立元 赵一鸣 临床流行病学和循证医学微信号
在对临床数据的探索分析工作中,我们经常会使用多因素logistic回归分析去探索疾病的危险因素,也可以用它来做预测。但是每每在使用logistic回归分析的时候,我们都会纠结应该选哪些作为自变量呢?选多少个合适呢? 选哪些作为自变量,这个问题比较简单。一般情况下,我都是选择那些单因素分析中与因变量有关的自变量进入回归方程。但同时需要提醒,如果某些自变量从作用机制或临床经验上来看,
在对临床数据的探索分析工作中,我们经常会使用多因素logistic回归分析去探索疾病的危险因素,也可以用它来做预测。但是每每在使用logistic回归分析的时候,我们都会纠结应该选哪些作为自变量呢?选多少个合适呢?
选哪些作为自变量,这个问题比较简单。一般情况下,我都是选择那些单因素分析中与因变量有关的自变量进入回归方程。但同时需要提醒,如果某些自变量从作用机制或临床经验上来看,跟因变量之间关系密切,此时也应该将其选入方程,即使单因素分析没有意义。
选谁确定了,剩下的就是选多少个合适了。假设我们的研究对象有m个,需要选择的自变量有n个。如果此时m很大且n很小,那么一般情况都可以选进来;如果此时m相对于n不够大,则不可以盲目的将n个自变量都丢进方程。
至于m和n之间的关系,有教科书上指出:经验上病例和对照的人数应该至少各有30-50例,方程中自变量的个数越多需要的研究对象例数也越大。
1985年,Harrell等人在其研究论文中指出:从理论上来讲,多因素分析中至少需要的EPV数量为10-20个。EPV(events per variable),就是每个自变量所需要的事件数。举个例子,也就是研究对象中较少组的数量,除以自变量的个数所得到的。如果m个研究对象中有m1个人有疾病,m2个人无疾病(m1+m2=m),同时m1小于m2,此时EPV=m1/n(n为自变量个数)。
在1996年,Peter等人针对logistic回归做了计算机模拟试验,探索EPV对logistic回归结果的影响。他们基于一个真实的心血管疾病研究数据,包含673个病人,其中有252人死亡。采用随机抽样的方法,分别设定EPV为2,5,10,15,20和25,计算logistic回归结果并于原始结果比对。其研究结果指出:当EPV大于等于10的时候,回归结果比较稳定,且与原始结果较为一致。当EPV小于10时,其偏回归系数偏倚较大。
到2006年,Eric等人发表题为“放松Logistic和Cox回归中10个EPV的规则”的论文,文中指出仅仅通过几个计算机模拟试验就确定EPV≥10的规则未免太过保守。作者通过更多数据的计算机模拟,以及对更多影响因素的考虑,指出EPV≥5即可获得可接受的结果,同时EPV过小,可考虑采用bootstrap的方法进行敏感性分析。
针对这个EPV的数量应该多少合适,不同的研究有不同的观点,2009年Karel等人在BMJ发表论文时指出:EPV大于等于10时较为合适,尽管有人提出EPV可以更小。
在此小编建议,在使用logistic回归做危险因素探索的时候考虑EPV≥10,应该是足够的了。注意此处是EPV≥10,而不是m/n≥10。如果拿logistic回归结果来做预测呢?个人觉得可能需要更大的EPV。除此之外,我们还应该考虑其他的预测建模方法(如随机森林等),同时对预测模型进行严格的评价。
参考文献:
1. HarrellFE, Lee KL, Mark DB. Multivariable prognostic models: issues in developingmodels, evaluating assumptions and adequacy, and measuring and reducing errors. StatMed1996;15:361-87.
2. LaupacisA, Sekar N, Stiell IG. Clinical prediction rules. A review and suggestedmodifications of methodological standards.JAMA1997;277:488-94.
3. ConcatoJ, Peduzzi P, Holford TR, Feinstein AR. Importance of events per independentvariable in proportional hazards analysis. I. Background, goals, and generalstrategy. JClin Epidemiol1995;48:1495-501.
4. PeduzziP, Concato J, Feinstein AR, Holford TR. Importance of events per independentvariable in proportional hazards regression analysis. II. Accuracy and precisionof regression estimates. JClin Epidemiol1995;48:1503-10.
5. VittinghoffE, McCulloch CE. Relaxing the rule of ten events per variable in logistic andCox regression. AmJ Epidemiol2007;165:710-8.
6. Moons KG,Royston P, Vergouwe Y, et al. Prognosis and prognostic research: what, why,and how? [J]. BMJ,2009,338:b375.
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
谢谢分享
63
统计板块要是有作者解答问题就更给力了
60
#logistic回归#
22
学习了。谢谢分享。
70
#Logistic#
43
以后多发一些相关知识啊,非常有帮助!
73
Z
69
学习了,很实用呢
13
。。。。。。。
19
学习了,分享了!!!
27