病例对照研究是一种回顾性的观察性研究方法,主要用于探索疾病与暴露因素之间的关联,其统计学分析围绕“比较病例组与对照组的暴露差异,推断暴露与疾病的关联强度” 展开。以下是其完整的统计学分析套路,涵盖数据准备、描述性分析、关联分析、分层与多因素分析及结果报告等核心环节:
数据准备与清洗
在进行统计分析前,需对原始数据进行规范化处理,确保数据质量,为后续分析奠定基础。
1.数据类型界定
明确暴露因素、结局变量(疾病状态)及混杂变量的类型:
(1)结局变量:二分类(病例 = 1,对照 = 0)。
(2)暴露因素:可分为二分类(如是否吸烟:是 = 1,否 = 0)、多分类(如吸烟量:不吸、少量、中量、大量)或连续型(如每日吸烟支数)。
(3)混杂变量:如年龄(连续 / 分类)、性别(二分类)、种族(多分类)等。
2.数据清洗
(1)检查缺失值:通过频数分析识别缺失比例较高的变量(如缺失率 > 20% 需谨慎处理),可采用删除、均值 / 中位数填充(连续变量)或众数填充(分类变量),或使用多重插补法。
(2)检查异常值:对连续变量(如年龄、血压)绘制箱线图或直方图,识别超出合理范围的异常值,核实数据准确性后决定保留或修正。
描述性统计分析
通过描述性分析呈现研究对象的基本特征,比较病例组与对照组的基线差异,为后续关联分析提供背景信息。
1.组间基线特征比较
示例:比较病例组与对照组的吸烟率(二分类),用卡方检验;比较年龄(连续),若正态分布用 t 检验,否则用秩和检验。
暴露与疾病的关联分析
核心步骤是通过构建四格表计算关联强度指标(比值比 OR),并进行显著性检验,判断暴露是否与疾病相关。
1.四格表基础(二分类暴露)
(1)比值比(OR):衡量暴露与疾病关联强度的核心指标,计算公式为:
OR=1:暴露与疾病无关联;
OR>1:暴露可能是疾病的危险因素(暴露组患病风险高于非暴露组);
OR<1:暴露可能是疾病的保护因素(暴露组患病风险低于非暴露组)。
(2)OR 的 95% 置信区间(95% CI):若 95% CI 不包含 1,说明关联具有统计学显著性(P<0.05)。
(3)显著性检验:通过卡方检验或 Fisher 确切概率法检验暴露与疾病的关联是否由随机误差导致,计算 P 值(P<0.05 为差异有统计学意义)。
2.多分类暴露的关联分析
若暴露为多分类(如吸烟量:不吸、少量、中量、大量),可设定一个参照组(如“不吸”),计算其他组相对于参照组的 OR 值及 95% CI,通过多组卡方检验分析整体关联,再进行两两比较(需校正多重检验 α 值)。
分层分析与混杂控制
当存在混杂因素(如年龄、性别)时,需通过分层分析或多因素模型控制混杂,避免其干扰暴露与疾病的真实关联。
1.分层分析(Mantel-Haenszel 法)
(1)目的:按混杂变量(如年龄分 < 60 岁和≥60 岁)分层,在每层内计算 OR,再合并得到调整后的总 OR(ORMH),排除混杂影响。
(2)计算公式(以二分类混杂变量为例):
(i 为分层编号,n_i 为第 i 层总人数)
(3)若分层前后 OR 差异较大(如变化 > 10%),说明该变量为混杂因素,需报告调整后的 OR。
2.多因素 Logistic 回归分析
(1)目的:同时控制多个混杂变量(如年龄、性别、BMI 等),更精准地估计暴露与疾病的独立关联。
(2)模型形式:以疾病状态(病例 = 1,对照 = 0)为因变量,暴露因素和混杂变量为自变量,构建二元 Logistic 回归模型:
(X1 为暴露因素,X2…Xk 为混杂变量,β1 为暴露因素的回归系数)
(3)结果解读:暴露因素的 OR=exp (β1),95% CI=exp (β1±1.96×SE (β1)),P 值 < 0.05 说明在控制混杂后,暴露与疾病的关联仍有统计学意义。
交互作用分析
当怀疑两个因素(如暴露因素与另一个变量)对疾病的联合作用不等于单独作用之和时,需分析交互作用。
1.交互作用的判断
(1)在 Logistic 回归模型中加入暴露因素与可疑交互变量的乘积项(如 X1×X2),若乘积项的回归系数 β 有统计学意义(P<0.05),则提示存在交互作用。
(2)示例:分析“吸烟(X1)” 与 “饮酒(X2)” 对肺癌的交互作用,模型中加入 X1×X2,若 β3≠0 且 P<0.05,说明吸烟与饮酒对肺癌的影响存在交互作用。
结果报告与解释
1.核心结果报告
(1)基线特征:病例组与对照组的基本特征及组间差异(如 P 值)。
(2)关联强度:未调整的 OR(95% CI,P 值)及调整混杂后的 OR(95% CI,P 值)。
(3)交互作用:若存在,报告交互项的 OR 及 P 值。
2.注意事项
(1)病例对照研究为回顾性设计,无法直接计算发病率,故不能用相对危险度(RR),只能用 OR 估计关联强度(当疾病发生率较低时,OR≈RR)。
(2)潜在偏倚:如选择偏倚(病例与对照的代表性差异)、信息偏倚(回忆偏倚),需在讨论中说明并解释对结果的影响。
总结
病例对照研究的统计学套路可概括为:数据清洗基线特征描述单因素关联分析(计算 OR)分层或多因素分析控制混杂交互作用分析结果报告。核心是通过 OR 值量化暴露与疾病的关联,并通过严格的统计方法控制偏倚和混杂,为病因推断提供依据。