手机版 客户端

挑兵挑将,有谁能进自变量(一)——下游中间变量如何取舍

挑兵挑将,有谁能进自变量(一)——下游中间变量如何取舍

  在几乎所有观察性研究,和很多干预性研究中,多因素分析都是我们必备的分析手段。毕竟在这类研究中,充斥着各种扰乱我们视线的混杂因素,忽略这些因素带来的混杂效应就无法让我们得到更接近真实的结论。但是在各种自变量中,除了我们关心的因素之外,并不是所有其他因素都是潜在的混杂因素,其中有一些因素是我们关心的因素与结局之间的中间过程指标(中间变量/中介效应变量),这时候您是怎么处理的呢?

  为了避免太抽象,我们先来建立个虚拟世界(打个预防针,这仅是虚拟世界千万别较真):我们要研究喝浓茶对减肥的效果,开展了干预性研究。我们收集了很多指标,大概包括,‍

  1、对象的基线指标,患者的基础体重、性别、年龄、出生体重、父亲体重、母亲体重、饮食相关指标……;

  2、对象是否接受了浓茶干预

  3、对象喝浓茶期间的运动情况、睡眠情况、饮食情况……

  4、对象开始喝浓茶3个月后的体重改变量。

  ‍

  您一定看出来了,这里面有几类因素:对象基线、干预因素、干预期间的因素、结局。基线和干预因素没什么可说的,我们可以认为除了干预因素外的其他基线,都可能是混杂因素,我们采用“傻瓜分析法”通通将他们代入多因素回归模型选择变量,或是先通过单因素分析筛选后丢给模型,有可能不会犯太大的错误。

  但是问题来了,对于“干预期间的因素”我们应该怎么看待呢?根据因果关系模型,这些因素并不一定都是与干预措施无关的。比如研究对象的睡眠情况,每天喝好多浓茶,睡得好才怪嘞~至少有相当一部分对象会出现睡眠问题。问题来了,睡眠不好本身不是也可能影响体重么?

  问题来了:我们进行多因素分析的时候,要不要吧“睡眠情况”也纳入模型的自变量呢?按照“傻瓜分析法”的思路,您也许会得到以下几个结论:

  傻瓜分析法思路a:既然睡眠可能影响体重,我们当然丢给模型进行判断啦!变量筛选留下谁算谁。‍

  傻瓜分析法思路b:既然是建立模型,我们肯定想得到更好的模型嘛。纳入与不纳入睡眠情况的模型之间,当然是哪个模型拟合优度好,模型更完美就用哪个模型的结论啦!

  其实如果熟悉因果关系模型,也熟悉中介效应分析的话,您也许会得到不同的结论。让我们来分析下我们关注的问题到底是什么,再决定选择哪种方法更合适:

  a.我们关注喝茶本身对体重改变的总体效应,而不管它通过哪些途径产生作用。比如我们想尽量避免一些患者体重下降,我们的建议是要不要改变他喝浓茶的习惯。这时候谁还会在乎喝茶通过哪些途径导致体重下降呢?我们更关注的是“喝浓茶这个行为到底会不会使体重降低”。

  好!让我们来看看上面的因果图,如果我们此时纳入了“喝浓茶”和“体重改变”之间的中间变量“睡眠情况”,此时睡眠情况一定会抢走一部分来自“喝浓茶”的效果,导致我们看到——啊,原来喝浓茶对体重没那么大影响。这一结论真的对么?显然并不太对,毕竟睡眠的改变就是从喝浓茶来的,而改变了喝浓茶这一习惯,自然也会带来睡眠情况的差异和后续的体重改变。所以此时,我们当然选择不纳入“睡眠情况”这一指标,虽然纳入该指标后模型本身的拟合优度可能更好。

  b.我们关注喝茶是否通过我们已知途径外的其他机制影响了体重。我们可能已经知道了喝浓茶会影响睡眠,而睡眠会影响体重。但是“喝茶本身是否会通过对代谢、进食、消耗等其他途径影响体重呢?还是喝茶主要只是通过影响睡眠导致体重改变?”

  对于这一问题,我们自然要在多因素分析中纳入已知的中间效应变量。当纳入了包括“睡眠情况”在内的所有中间变量之后,如果“喝浓茶”这一指标仍然和“体重改变”之间存在关联,那么当然提示我们,喝茶还有其他未知的途径和机制会导致体重变化。

  这有什么意义呢?比如我们要对肥胖患者进行干预,大家都觉得喝茶能减肥。如果喝茶本身能通过减少睡眠之外的途径减肥的话,那它可能或多或少有一些应用价值。但是如果我们发现喝茶所有的效应都是通过“不让胖子睡觉”导致的,那我们何必还让他们喝茶呢?直接不让他们睡觉就行了。而且很多胖子喝茶之后觉得睡眠困难,一吃安眠药,结果可能没减肥反而更胖了。

  一个简单的例子,帮助大家理解存在中间变量时我们的分析思路。其实有的时候我们并不知道到底上面两点哪个结论对我们更重要,此时也许就需要考虑分别建立两个多因素分析模型了。通过不纳入中间变量的模型,探讨干预/暴露因素对结局的总体效应;通过纳入中间变量的模型,探讨干预/暴露因素是否有我们未知机制的效应。

参考标签

声明:本文转载仅出于学习和传播信息所需,并不意味着代表本站观点或证实其内容的真实性;其他网站或个人转载使用须保留本站所注“来源”,并自负相关法律责任;如作者不希望被转载或其他事宜,请及时联系我们!

相关文章