危险因素探索分析中的3个关键问题

2019-11-25 小白学统计 小白学统计

危险因素筛选或探索是医学研究中的一大类目的,很多临床医生都会通过已有的数据,确定一个医学结局,然后分析这一结局跟哪些因素有关,或者说,哪些因素可能是该结局发生的独立影响因子。危险因素的探索分析过程,说简单就简单,说复杂也很复杂。说简单,是因为很多人习惯把数据往软件里一扔,因变量放到因变量的地方,自变量拖到自变量的地方,运行,出结果,结束。说复杂,是因为往往上述的这种分析方式,其实很多都有问题,

危险因素筛选或探索是医学研究中的一大类目的,很多临床医生都会通过已有的数据,确定一个医学结局,然后分析这一结局跟哪些因素有关,或者说,哪些因素可能是该结局发生的独立影响因子

危险因素的探索分析过程,说简单就简单,说复杂也很复杂。说简单,是因为很多人习惯把数据往软件里一扔,因变量放到因变量的地方,自变量拖到自变量的地方,运行,出结果,结束。说复杂,是因为往往上述的这种分析方式,其实很多都有问题,因为统计分析最关键的不是软件,而是使用软件的人。

本文根据作者多年的分析经验,说一下危险因素探索分析中的3个关键问题,希望以此提醒各位朋友,在数据分析时,不要一味依赖软件。软件主要是帮你计算,思路是无法替代的。没有一个明确的分析思路,只能导致garbage in, garbage out. 这种悲惨结局。关键的问题是,很多人即使得到了garbage的结果,却懵然不知,还以为发现了真理。这才是最大的悲哀。所以本文特地介绍几个在危险因素探索过程中比较关键的3个问题,希望对各位有所帮助。

(1)线性问题

不管是线性回归还是logistic回归或Poisson回归,他们都属于广义线性模型,本质上都是“线性模型”,因此一定要确认自变量与因变量(logistic回归中为logit P)之间是否线性关系,如果不是,需要考虑进行相应的变换,否则可能会产生错误结果。

例1:某研究分析老年人高血压(二分类变量,是或否)的危险因素,研究因素包括gender、age、ox-LDL、Adiponectin、ox-LDL IgG和ox-LDL IgM共6个指标。其中gender为二分类变量,其余变量均为连续变量。如果把这6个自变量直接纳入统计软件分析,所得结果如表1所示。



可以看出,这6个变量均无统计学意义。然而对数据重新分析后发现,并不是这些变量对结局均无影响,只是未能发现它们之间的真实关系而已。经仔细观察,发现age和ox-LDL IgM对结局的影响是有统计学意义的,但不是线性影响,而是二次项关系(表2)。



这提醒我们,不仅仅是线性回归需要看自变量与因变量的线性,logistic回归也需要考虑,虽然logistic回归中不像线性回归可以用散点图那么直观,然而logit p与自变量的关系仍需要考虑是否线性。如果不是,你的结果恐怕就有问题。

(2)共线性问题

共线性简单来说就是自变量之间存在高度相关,从而导致结果不可靠。共线性是大多数回归模型都需要考虑的一个问题,一旦发现该问题,需要采取不同措施来解决。常见的解决方案包括删除某一自变量、主成分分析、Lasso回归等。具体这些方法在后续文章中逐一介绍。

例2:某研究分析乳腺增生的危险因素,自变量同时包括妊娠次数(三分类变量,用1、2、3表示相应次数)和流产次数(三分类变量,用0、1、2表示相应次数)。在单因素分析中妊娠次数有统计学意义(2 vs. 1,P=0.0258;3 vs. 1,P=0.0354),然而多因素分析中变得无统计学意义(P值分别为0.6351、0.5942)。分析原因发现,主要是由于妊娠次数和流产次数有较强的共线性,二者相关系数高达0.55,从而导致妊娠次数变得无统计学意义。解决方案采用了删除法,删除妊娠次数变量,保留了流产次数变量。

多数软件都可以实现线性回归的共线性诊断,logistic回归则不一定有相应选项。实际上无所谓,因为共线性只是针对自变量的,因此即使logistic回归分析,仍可以用线性回归的共线性诊断工具,判断自变量之间是否存在共线性。

关于共线性的判断,有很多种方法,后续会慢慢再说。但是必须先提醒一点,共线性的判断,不建议根据某一固定值,大于或小于多少就有共线性,否则就没有共线性。根据我个人的多年分析经验,这种方式很不可靠。当然,这些问题在后续文章中详细再说,这里先做一简单提醒。

(3)单因素和多因素的问题

对于危险因素筛选,不少人的分析思路是:先进行单因素分析,将单因素分析中有统计学意义(P<0.05)的变量再纳入多因素分析,选出最终有统计学意义的变量作为危险因素。然而这一思路并非十分可靠,有些情况下可能会出现单因素分析无统计学意义而多因素分析有统计学意义的情况,此时就容易漏掉某些重要的因素。

例3:某研究分析两个血清学指标(分别用阳性和阴性表示)对癌的影响,数据结果如表3所示。



该数据采用单因素分析的话,可以发现x1并无统计学意义(P=0.114),而在多因素分析中却变得有统计学意义(P=0.018)。如果只将单因素分析中有统计学意义的变量纳入多因素分析的话,就会漏掉x1变量。为什么会出现这种情况,主要是因为x1和x2之间存在负相关,而x1、x2与结局之间均为正相关。

关于这一问题,在前面的文章中已有专门提到,大家可以再回去复习一下。不过当时那篇文章用的是一个连续变量举例,可能有的人看的不够直观。现在这个例子是分类变量,看起来可能更直观一些。

给大家的建议是,数据分析过程中,不要盲目套用所谓的“分析套路”,而应结合实际情况具体问题具体分析。

正如统计学界一句很流行的话“所有的模型都是错误的,但是有一些是有用的”。我也想说“所有的分析套路都可能是错误的,但有些是可以参考的”。为什么这么说呢?因为统计分析太灵活了,绝对找不出一个适用于任何数据分析的所谓套路或模式或步骤,然而,有些过程的确是可以参考,可以帮助我们探索一些问题。

版权声明:
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (2)
#插入话题
  1. [GetPortalCommentsPageByObjectIdResponse(id=1013460, encodeId=aab2101346015, content=请问一下发现自变量有严重共线性后,用岭回归分析的结果显示观测值为0是怎么回事?, beContent=null, objectType=article, channel=null, level=null, likeNumber=43, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=85265591142, createdName=嚎居居, createdTime=Wed Sep 01 13:40:47 CST 2021, time=2021-09-01, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1916782, encodeId=b9881916e8205, content=<a href='/topic/show?id=a4b63019128' target=_blank style='color:#2F92EE;'>#关键问题#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=33, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=30191, encryptionId=a4b63019128, topicName=关键问题)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=d64f419, createdName=qindq, createdTime=Fri Oct 30 17:42:00 CST 2020, time=2020-10-30, status=1, ipAttribution=)]
    2021-09-01 嚎居居

    请问一下发现自变量有严重共线性后,用岭回归分析的结果显示观测值为0是怎么回事?

    0

  2. [GetPortalCommentsPageByObjectIdResponse(id=1013460, encodeId=aab2101346015, content=请问一下发现自变量有严重共线性后,用岭回归分析的结果显示观测值为0是怎么回事?, beContent=null, objectType=article, channel=null, level=null, likeNumber=43, replyNumber=0, topicName=null, topicId=null, topicList=[], attachment=null, authenticateStatus=null, createdAvatar=null, createdBy=85265591142, createdName=嚎居居, createdTime=Wed Sep 01 13:40:47 CST 2021, time=2021-09-01, status=1, ipAttribution=), GetPortalCommentsPageByObjectIdResponse(id=1916782, encodeId=b9881916e8205, content=<a href='/topic/show?id=a4b63019128' target=_blank style='color:#2F92EE;'>#关键问题#</a>, beContent=null, objectType=article, channel=null, level=null, likeNumber=33, replyNumber=0, topicName=null, topicId=null, topicList=[TopicDto(id=30191, encryptionId=a4b63019128, topicName=关键问题)], attachment=null, authenticateStatus=null, createdAvatar=, createdBy=d64f419, createdName=qindq, createdTime=Fri Oct 30 17:42:00 CST 2020, time=2020-10-30, status=1, ipAttribution=)]

相关资讯

Ann Rheum Dis:新生儿狼疮长期心脏功能障碍的相关因素

新生儿狼疮(NL)的心脏表现与死亡率升高相关。但是,关于患病个体长期预后的信息很少。这项研究旨在评估多个年龄段的NL新生儿出生后是否存在功能障碍及其相关危险因素,从而改善治疗、进一步了解发病机理并提供潜在的预防策略。 对239例心脏NL患者的超声心动图报告进行评估:0-1岁143例,>1-17岁176例,>17岁64例。使用logistic回归分析评估每个年龄组心脏功能障碍与

Stroke:藏族非急性卒中患者白质病变的患病率和危险因素

由此可见,对于居住在高海拔地区的藏人和居住在平原上的个人来说,WML的危险因素似乎相似。需要进行进一步的调查以确定居住在高海拔地区的藏人是否比平原居民具有更高的WML负担。

AHA2019丨心房颤动高危人群何以自救:生活方式干预和危险因素控制的重要性

第92届美国心脏协会科学年会(AHA 2019)已于美国费城正式召开。此次年会为期3天,吸引100多个国家众多专家学者参加。来自布列根和女子医院的Christine M Albert教授做客大会主题报告单元,围绕高危人群心房颤动预防中患者的自控因素发表演讲,阐述生活方式干预和危险因素控制的重要意义。布列根和女子医院Christine M Albert教授Andrade J等于2014年发表于Cir

JAMA Neurol:30岁时心血管危险因素多,老年痴呆风险高!

近日,发表在JAMA Neurol上的一项英国研究提醒:30多岁不注意心血管风险,就开始影响大脑健康了,而且这种年轻时对心脑健康的影响更甚于50岁后。

Hypertension:子痫前期与妊娠相关的急性肾脏损伤危险因素和肾脏结局

总之,子痫前期在女性中很常见,并且相关的母婴死亡率很高。只有三分之二的妇女已确认肾脏恢复。既往有高血压的妊娠史是重要的危险因素。

Aging:阜外医院牵头71万癌症患者随访研究:癌症合并高脂血症或有保护作用,合并心衰预后最差

阜外医院杨进刚、袁建松和刘冬等近期发表的一项入选71万患者的大规模队列研究发现,18%的癌症患者有心血管危险因素或心血管疾病,明显高于一般人群。