多元线性回归分析是医学统计学中最常用的方法之一。在医学领域,通常使用多元线性回归来研究各种健康相关因素(例如血压、血糖、血脂等)之间的关系,并确定哪些因素对健康状况的影响最大。还可以用于预测某些因素对某种疾病或健康状况的影响。例如,要确定高血压的风险因素,可以使用多元线性回归来分析不同的因素(例如体重、饮食习惯、吸烟等)对高血压的影响,以便更好地了解高血压的发病机制,从而更有效地预防和治疗高血压。还可以用来研究药物治疗效果,使用多元线性回归来确定药物治疗的效果,例如治疗某种疾病后,血糖、血脂等生理指标的变化情况。
使用多元线性回归分析来研究患者的生活方式因素对胆固醇水平的影响。以年龄、体重指数(BMI)、每周运动时间和膳食纤维摄入量对总胆固醇(Total Cholesterol, TC)的影响。总胆固醇以mmol/L为单位表示。
示例数据仅做演示:
序号 | 年龄 | BMI | 运动时间(小时/周) | 膳食纤维摄入量(克/天) | TC (mmol/L) |
---|---|---|---|---|---|
1 | 25 | 23.5 | 5 | 30 | 4.65 |
2 | 35 | 28.0 | 2 | 15 | 5.44 |
3 | 30 | 25.3 | 4 | 20 | 5.05 |
4 | 40 | 27.5 | 3 | 30 | 5.69 |
5 | 18 | 22.0 | 7 | 28 | 4.53 |
6 | 35 | 30.0 | 1 | 12 | 5.96 |
7 | 27 | 24.0 | 3 | 20 | 4.92 |
8 | 38 | 26.5 | 4 | 31 | 5.18 |
9 | 15 | 21.5 | 8 | 32 | 4.40 |
10 | 42 | 29.0 | 2 | 29 | 5.56 |
11 | 20 | 23.0 | 5 | 24 | 4.65 |
12 | 34 | 28.5 | 2 | 16 | 5.44 |
13 | 24 | 25.0 | 4 | 22 | 5.05 |
14 | 39 | 27.0 | 6 | 28 | 5.31 |
15 | 17 | 22.5 | 7 | 30 | 4.53 |
16 | 45 | 30.5 | 1 | 10 | 6.08 |
17 | 26 | 24.5 | 3 | 20 | 4.92 |
18 | 37 | 26.0 | 6 | 24 | 5.18 |
19 | 14 | 21.0 | 8 | 34 | 4.27 |
20 | 43 | 29.5 | 2 | 12 | 5.69 |
拟合后的回归方程可能如下所示: TC (mmol/L) = β0 + β1 * 年龄 + β2 * BMI + β3 * 运动时间(小时/周) + β4 * 膳食纤维摄入量(克/天) 其中,β0为截距项,β1-β4为各自变量的回归系数。
可以使用统计软件(如SPSS、R、Python等)进行多元线性回归分析。以医学统计助手为例进行计算,软件给出的结果直观易懂。
医学统计助手(www.statsas.com)


计算结果,TC (mmol/L) = 1.2243 + 0.0041 * 年龄 +0.1503 * BMI – 0.0109 * 运动时间(小时/周) – 0.0019* 膳食纤维摄入量(克/天)
通过分析回归系数的符号和大小,可以了解不同因素对总胆固醇水平的影响。例如,β1为正,那么年龄越大,总胆固醇水平可能越高;β3为负,那么每周运动时间越长,总胆固醇水平可能越低。此外,可以通过比较各自回归系数的绝对值来了解哪些因素对总胆固醇水平的影响更大。
可以使用模型的R²(确定系数)来衡量模型的拟合程度。R²值的范围为0到1,值越接近1,说明模型解释了更多的变异,拟合效果更好。
为了评估模型的显著性,需要计算F统计量及其对应的p值。如果p值小于预定的显著性水平(例如0.05),就可以认为模型是显著的。