作者/风仕
到目前为止,我们已经讲完了临床研究常用的统计学,这期开始讲样本含量估计,这是申报临床课题时常需要用到的。我们首先来理清样本含量估计的基础知识,主要从样本含量的定义、样本含量估计的意义、样本含量估计应具备的条件(指标)、样本含量估算的影响因素、调查设计常用样本含量估计方法及样本量估算的主要研究设计类型这几方面进行讲解。
样本含量的定义
样本含量又称样本量,是指在一项研究中所选取的观察对象或实验单位的数量。它是研究设计中的一个重要参数,决定了研究结果的可靠性和有效性。样本含量的估计是在保证研究结论具有一定可靠性的条件下,确定最少得调查单位或实验单位数。
核心目标:通过合理数量的样本,确保研究结果具有统计学意义和临床/科学价值。
数学本质:反映研究对随机误差的控制能力,与效应量、检验效能等参数直接相关。
样本含量估计的意义
样本量估算能够帮助研究者实现研究结论的可靠性、可重复性和研究效率,同时节约资源,满足伦理要求,并增强研究的可重复性。
1.保证研究结果的准确性:足够的样本量可以使样本更能代表总体,减少抽样误差,从而使研究结果更接近总体的真实情况,提高估计的精度和可靠性。
2.确保研究的检验效能:在进行假设检验时,足够的样本量能够保证研究有足够的能力检测出总体中存在的真实差异或关系,避免出现假阴性结果,即提高检验效能。
3.合理利用资源:通过合理估计样本量,能够在满足研究目的的前提下,避免不必要的样本过多或过少。样本量太小则观察指标不稳定、抽样误差大,研究结论缺乏科学性;同时易得到假阴性结果,使得研究难以回答设计的问题。样本量太大则又会降低研究的可重复性的同时,造成了人力财力物力及时间上的不必要浪费、试验条件难以控制。
4.符合伦理要求:在一些涉及人体的研究中,如临床试验,合理的样本量可以在保证获得有效信息的同时,减少不必要的受试者暴露于研究风险中,符合伦理原则。
样本含量估计应具备的条件(指标)
1.明确的研究目的:清楚是要估计总体参数(如均值、比例等),还是进行假设检验(比较组间差异、分析变量间关系等),不同的研究目的对样本量的要求不同。
2.确定的研究设计:包括研究类型(如观察性研究、实验性研究)、抽样方法(简单随机抽样、分层抽样等)、分组情况(如单组、两组或多组)等,不同的研究设计有不同的样本量估计方法。
3.相关参数的估计值:如总体标准差、总体平均数、总体比例(率)、预期的效应大小等。这些参数通常需要根据以往的研究资料、预试验结果或专业知识进行估计。
(1)预期效应大小:样本量估算的关键是要确定研究中希望检测到的效应大小。这通常是基于之前的研究结果或者临床经验来估计的,这就需要我们查阅相关的文献。
(2)显著性水平(α):又称为I型错误的概率α(即假阳性),或区间估计中的置信度1-α,显著性水平表示犯第一类错误(拒绝一个为真的零假设)的概率。α越小,所需样本含量越多,α的取值范围在0.01到0.1之间,通常设置为0.05或0.01,它决定了允许犯第一类错误(假阳性错误)的概率,具体取决于研究的要求。α一般取双侧。
(3)统计功效(检验效能1-β):又称为II型错误的概率β(即假阴性),也称为把握度,指的是当组间存在差异时所使用的统计检验能够发现这种差异的能力。统计功效是检测到真实效应的概率。检验效能越大,所需样本量就越多,通常设置为0.8、0.9、0.95,一般要求不低于0.75,但是过低的统计功效可能导致未能检测到真实的效应,β 为犯第二类错误(假阴性错误)的概率。β一般取单侧。
(4)总体平均数μ、总体率π或总体标准差σ:样本量估算还需要考虑到测量的变异性,通常通过先前的研究结果或者临床经验来估计,这就需要我们查阅相关的文献。
(5)对结果精度的要求(允许误差或差值δ):如估计总体参数时允许的误差范围,即有研究意义或临床意义的最小差值,如比较两个总体参数之间的差值,δ=μ1-μ2(μ1和μ2分别代表两个总体的均数)。误差δ范围越小,所需的样本量越大。
4.单、双侧检验:关心结果的侧重点在方向上时可使用单侧检验;若侧重点在假设是否成立,而不关心其方向,则可以使用双侧检验,双侧检验需要更多的样本量。
5.脱落率(DR):在进行研究时,尤其是调查问卷、临床试验等,参与者可能会退出或数据可能因各种原因丢失。为避免因受试者的脱落导致样本量不足,可设定脱落率适当增加样本量。在临床试验中,脱落率通常被设定在10%到20%之间,常设置为15%,这个范围的设定是基于统计考虑,以避免由于脱落对试验结果产生的稀释效应。超过20%的脱落率可能会对试验的内部真实性和研究结果的有效性产生显著影响,因此一般在方案中会限定脱落率最高不得超过20%。如果考虑试验难度或设计等因素,脱落率可以预先设置,并在试验方案中给出说明。
样本含量估算的影响因素
1.总体特征
(1)总体的变异性:总体的标准差或方差越大,说明个体间差异越大,需要更大的样本量才能准确反映总体特征。
(2)总体大小:当总体规模较小时,样本量占总体的比例对结果影响较大,可能需要相对较大的样本比例;对于大规模总体,样本量的绝对数量更重要。
2.研究设计
(1)抽样方法:简单随机抽样相对更直接,但分层抽样、整群抽样等复杂抽样方法由于抽样效率不同,对样本量的要求也不同,整群抽样通常需要更大样本量。
(2)研究类型:实验性研究一般需要更严格的控制和更大的样本量来保证结果的可靠性;观察性研究可能受混杂因素影响较大,也需要足够样本量来控制偏倚。
3.统计分析方法
(1)参数估计方法:不同的参数估计方法对样本量的要求不同,如估计均值和估计比例的样本量计算公式不同。
(2)假设检验类型:不同的假设检验(如 t 检验、χ² 检验等)所需样本量也不同,且与预期的效应大小、检验的方向性等有关。
4.其他因素
(1)预期的失访率:如果研究过程中可能出现较高的失访率,为保证最终分析时有足够的有效样本,需要在初始阶段增加样本量。
(2)研究的时间和资源限制:实际研究中,时间、经费、人力等资源有限,需要在满足研究目的的前提下,根据资源情况合理确定样本量。
调查设计常用样本含量估计方法
调查设计常用样本含量估计方法有经验法、公式计算法(计量资料和计数资料)、查表法和软件计算法。具体如下:
1.经验法
(1)原理:凭借研究人员在相关领域的经验积累,以及对类似研究的了解,参考以往成功研究的样本规模来确定当前研究的样本含量。
(2)适用场景:在研究初期,对研究问题的了解尚不深入,缺乏足够的数据来进行精确计算时,可采用经验法。例如,在一些定性研究或初步的可行性研究中,重点在于探索现象或获取初步信息,对样本代表性和统计精度要求相对较低。
(3)举例:在一项关于某社区居民对垃圾分类态度的初步调查中,研究人员参考以往在类似社区进行的小规模调查经验,选取了 100 户家庭作为样本。因为在过往经验中,这样的样本量能够初步了解社区居民的大致态度倾向,为后续更深入的研究提供基础。
2.公式计算法
(1)计量资料
1)已知总体标准差σ时
原理:基于正态分布理论和抽样误差原理,通过设定允许误差δ和置信水平1−α,利用公式
计算样本含量n。其中zα/2是对应置信水平的标准正态分布双侧分位数,它确定了抽样误差的范围,σ反映了总体数据的离散程度,δ是研究者允许的估计值与总体真值之间的最大误差。
适用场景:当总体标准差σ已知,且研究目的是估计总体均值,对估计精度有明确要求时使用。例如,在对某一已知标准差的生产流程中产品质量指标的均值进行估计时,可采用此公式。
举例:已知某型号灯泡的使用寿命标准差σ=100小时,现要估计该型号灯泡平均使用寿命,要求在95%的置信水平下,允许误差不超过20小时。则α=0.05,zα/2 =1.96,根据公式可得
,即需要抽取97个灯泡进行测试。
2)未知总体标准差σ时
原理:由于总体标准差未知,通过预调查或查阅相关文献获取样本标准差s,用s近似代替
σ,再代入上述公式计算样本含量。预调查是在正式调查前进行的小规模试验性调查,以获取初步数据来估计总体参数。
适用场景:大多数实际研究中,总体标准差往往是未知的,此时需要先进行预调查或参考以往类似研究的标准差来进行样本含量估计。例如,在研究某地区居民收入水平的调查中,事先不知道该地区居民收入的总体标准差,就需要先进行预调查。
举例:在一项关于某地区居民月收入的调查中,先抽取了30户居民进行预调查,得到样本标准差s=1500元。若希望在95%置信水平下,估计该地区居民月平均收入的允许误差为
300元,则
,即正式调查需要抽取97户居民。
(2)计数资料
1)估计总体率p时
原理:基于二项分布原理,通过设定允许误差δ和置信水平1−α,利用公式
计算样本含量n。其中p是对总体率的估计值,zα/2是标准正态分布双侧分位数,用于确定抽样误差范围。
适用场景:当研究目的是估计总体中具有某种特征的个体所占比例时使用。例如,估计某地区人群中某种疾病的患病率、某产品的合格率等。
举例:根据以往经验,估计某地区居民对某政策的支持率约为70%,现要在95%置信水平下,使估计的支持率允许误差不超过5%。则p=0.7,α=0.05,zα/2 =1.96,代入公式可得
,即需要调查约323人。
2)比较两个总体率p1和p2时
原理:基于两个独立样本率的比较原理,考虑检验效能1−β(β为第二类错误概率)、显著性水平α以及两个总体率的估计值p1和p2,通过公式
计算样本含量n。其中zα/2和zβ分别是标准正态分布的双侧分位数和单侧分位数。
适用场景:常用于比较两组人群中某事件发生频率的差异,如比较两种治疗方法的有效率、不同地区人群某种疾病的发病率等。
举例:要比较两种药物治疗某疾病的有效率,预计药物A的有效率p1=80%,药物B的有效率p2=60%,设定α=0.05,β=0.1(即检验效能为90%),zα/2=1.96,zβ=1.28。代入公式可得
,即每组需要至少162例患者。
3.查表法
(1)原理:统计学家根据不同的研究设计、统计方法以及相关参数,预先编制了样本含量估计表。这些表格是通过大量的理论计算和模拟实验得到的,用户只需根据自己的研究情况,查找相应的表格,找到符合条件的样本含量。
()适用场景:适用于一些常见的研究设计和统计分析方法,当研究条件与表格所设定的条件相符时,可快速查找到样本含量。例如,在一些简单的临床试验、流行病学调查中,若研究目的和统计方法较为常规,可使用查表法。
(3)举例:在一项简单的临床试验中,研究目的是比较两组患者治疗后的有效率,预期两组有效率分别为60%和40%,设定α=0.05,检验效能为80%。通过查阅相关的样本含量估计表,可直接找到对应的样本含量为每组约100例。
4.软件计算法
(1)原理:专业统计软件或专门的样本含量计算软件内置了各种样本含量估计的算法和模型。用户只需根据研究设计类型、统计分析方法以及输入相关参数,软件即可按照预设的算法进行精确计算,得出样本含量。
(2)适用场景:适用于各种复杂的研究设计和统计分析情况,尤其是当涉及多个因素、多种统计方法或特殊的研究设计时,软件计算法能够更准确地估计样本含量。例如,在多中心临床试验、复杂的流行病学队列研究等场景中广泛应用。
(3)举例:在一项多中心、随机对照的药物临床试验中,研究人员使用 SAS 软件来估计样本含量。他们根据研究的主要终点指标(如治愈率)、预期的组间差异、设定的显著性水平和检验效能等参数,在 SAS 软件中调用相应的样本含量计算程序,软件经过复杂的计算后得出每组需要纳入300例患者的结论。
样本量估算的主要研究设计类型
样本量估算的研究设计类型可以从多个角度进行分类,以下是一些常见的分类方式及具体类型:
1.按研究目的分类
(1)描述性研究:
横断面调查:通过对特定时点或时期内,特定人群中疾病或健康状况及相关因素的调查,来描述疾病或健康状况的分布及其相关因素。例如,要了解某地区老年人慢性疾病的患病情况,可采用横断面调查。在估算样本量时,对于分类变量,需考虑总体患病率、允许误差等因素;对于连续变量,需考虑总体标准差、允许误差等因素。
(2)分析性研究:
病例对照研究:选择患有某病的病例和未患该病的对照,回顾性地调查他们过去暴露于某些因素的情况,以探讨疾病与这些因素的关系。可分为成组设计的病例对照研究和匹配设计的病例对照研究。成组设计时,样本量估算要考虑预期的暴露率、相对危险度等;匹配设计则需考虑匹配因素、匹配比等。
队列研究:将特定人群按是否暴露于某因素分为暴露组和非暴露组,追踪观察一定时间,比较两组人群某种疾病的发病率或死亡率,以判断暴露因素与疾病的关系。若研究的结局是分类变量,如发病或未发病,样本量估算需考虑两组的预期发病率、检验效能等;若是连续变量,如血压、血糖的变化,需考虑两组的均值差异、总体标准差等。
(3)实验性研究:
随机对照试验(RCT):将研究对象随机分配到试验组和对照组,然后给予试验组干预措施,对照组给予对照措施,观察比较两组的结局,以评价干预措施的效果。对于分类变量结局,样本量估算基于预期的有效率、两组间的差异等;对于连续变量结局,基于两组的均值差异、标准差等。
2.按研究变量类型分类
(1)分类变量研究:研究中的结局变量或主要观察变量是分类变量,如疾病的有无、治疗的有效或无效等。除上述提到的病例对照研究、队列研究和 RCT 中涉及分类变量的情况外,在横断面调查中,估计总体患病率时也属于此类。样本量估算主要依据总体的预期比例、允许误差、检验效能等因素。
(2)连续变量研究:变量为连续型数据,如身高、体重、血压、血脂等。在队列研究、RCT 以及横断面调查中,当研究这些连续变量的组间差异或总体均值时,样本量估算要考虑总体标准差、预期的均值差异、检验效能等。
3.按研究性质分类
(1)优效性试验:目的是证明试验组的效果优于对照组,如新药与安慰剂对照,验证新药是否能更有效地治疗疾病。样本量估算要根据预期的效应大小、检验水准和检验效能等,确保有足够的把握度检测出组间的真实差异。
(2)非劣效性试验:旨在证明试验组的效果不劣于对照组,通常用于新药与已上市的标准药物进行比较,在保证新药物疗效不低于标准药物的前提下,可能具有其他优势,如安全性更好、价格更低等。对于分类变量,需考虑两组的预期发生率、非劣效界值等;对于连续变量,考虑两组的均值差异、非劣效界值、标准差等;对于生存分析,要考虑生存率、风险比等。
(3)等效性试验:验证两种或多种处理方法的效果在临床上是等效的。样本量估算较为复杂,需同时考虑等效界值、总体参数的估计值以及检验效能等因素。
4.按研究对象分组方式分类
(1)成组设计:将研究对象完全随机地分配到不同的组,如在病例对照研究中,成组地选择病例和对照;在 RCT 中,将受试者随机分配到试验组和对照组。样本量估算主要基于组间的预期差异、总体特征等。
(2)匹配设计:根据某些特征或因素将研究对象进行配对或匹配,然后将匹配好的对子分别分配到不同的组。在病例对照研究中,常采用个体匹配,如按年龄、性别等将病例和对照进行匹配,以控制混杂因素。样本量估算除考虑疾病与暴露因素的关系外,还需考虑匹配因素的影响以及匹配比。
5.按特殊研究类型分类
(1)诊断试验研究:用于评价某种诊断方法的准确性,如估计灵敏度和特异度、绘制 ROC 曲线并计算曲线下面积等。在估算样本量时,要根据预期的灵敏度、特异度、患病率以及允许误差等因素来确定,以保证能够准确估计诊断试验的各项指标。
(2)生存分析研究:主要用于分析随访资料中事件发生的时间,如疾病的复发时间、患者的生存时间等。在队列研究、RCT 中涉及生存分析时,样本量估算要考虑事件发生率、随访时间、检验效能等因素,以准确评估不同组间生存情况的差异。
总之,对于样本含量的估算,我们一般先确定是哪种研究设计类型(随机对照试验-对列研究、病例对照研究、横断面调查、生存分析、估计灵敏度和特异度的诊断试验、ROC曲线下面积、非劣效性试验等),然后再明确是目标指标类型(分类变量、连续变量、生存分析等),最后再明确该研究设计类型的样本含量估计应具备的条件(指标)。
欢迎关注我,让你身边多一位熟悉统计分析方法的帮手,有以下付费视频或服务可供选购:
1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。
2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。
3.购买视频课程赠送课程相关主题内容1对1答疑1年。
领取专属 10元无门槛券
私享最新 技术干货