【审评】临床试验缺失数据的统计学考量
2016/5/27 经纬传奇

     摘要

     缺失数据是临床试验中常见的重要问题,可能引起试验结果难于解释,甚至影响整个试验的推断和结论,但目前在国内临床研究中尚未引起足够的重视。实际应用中,申请人对待缺失数据的处理存在盲口应用统计学方法的现象,给新药安全有效性的评价和确证带来诸多困难。本文针对三个实际案例进行深入地阐述和分析,探讨对缺失数据的预防、估训一量的选择、缺失数据的统训一分析方法以及敏感性分析等,以期有助于申请人在临床试验中加强对缺失数据预防和处理方法的重视。

     缺失数据是临床试验中常见的重要问题,可能引起试验结果难于解释,甚至影响整个试验的推断和结论,但目前在国内外临床研究中尚未引起足够的重视。临床试验中产生缺失数据的机制主要有三种:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR),分析时应根据机制的不同采用相应适当的处理方法。但在实际应用时,申请人对其处理存在盲目应用统计学方法,未能结合试验的自身特点和可能的缺失机制,而预先在方案中制定合适的分析策略。为此本文针对三个实际案例进行深入地阐述和分析,通过体会和理解不同案例成功与失败的原因,希望有助于申请人在临床试验中加强对缺失数据预防和处理方法的重视。

     1案例分析

     1. 1案例1(A药)

     1. 1. 1试验设计及结果

     某申请人向监管机构递交了补充申请扩大A药的适应证,用于降低急性冠状动脉综合征(ACS)患者血栓性心血管事件发生的风险。补充申请的依据是一个关键111期临床试验,在15526个患者中开展的随机双盲安慰剂对照、事件驱动的研究,以评价A药的安全有效性。主要目的是验证A药相比安慰剂在减少主要心脏不良事件(MACE)上的优效性,MACE由心血管死亡、心肌梗死和脑卒中组成。A药有两个剂量2. 5 mg和5 mg,研究将不同的联合治疗方式作为分层因素,与单药阿司匹林联合作为研究分层的第1层,与双重抗血小板药物(阿司匹林+噻吩并匹啶)联合治疗作为第2层,第2层占参与试验人数的大多数。

     申请人的主要分析结果显示,合并两种剂量且在所有层上(1 +2层)主要终点指标比值比(OR值)为0. 85 (95% CI:O. 75一0. 96 ),仅在第2层上OR值为0. 86 (95% CI: 0. 76一0. 99)。该试验有2402个患者(占15.5%)早期终止试验,其中1294个患者(8. 3 %)撤销知情同意书,在试验结束时该1294人中有1117人不清楚其存活状态,该数超过了主要终点事件发生数(1002人)。

     1. 1. 2评价考虑

     尽管数据缺失的比例小于20 %,但两组间存在差异,试验组缺失率比对照组高出1. 4%,而这几乎与两组主要终点事件发生率的差异相一致(MACE发生率试验组为6. 1 %,对照组为7. 3 %,对照组比试验组高1.2%),这为放大或掩盖两组间疗效差异提供了相当大的机会。

     如果两组脱落的原因或频率有差异,就会加剧这方面的担心。在抗血栓药物试验中可能发生,因为所研究的药物可能增加出血风险,从而导致试验组比安慰剂组出现更多的患者终止或脱落。而出血又与缺血性心血管事件和死亡的短期和长期风险增加有关系,因此与出血相关的脱落增加很可能导致试验结果有利于所研究的试验药。在该试验中,与随访完整的患者相比,随访不完整的患者出血率在对照组中是其3倍,在2. 5 mg试验组是其4. 5倍,在5 mg试验组是其5倍,而且对照组退出的患者发生出血事件的可能性明显低于试验组,说明该试验可能发生有信息的删失,从而导致结果存在偏倚。

     再一个考虑是做敏感性分析,看额外需要多少个事件数让统计结论颠倒过来,即变得没有统计学意义,称为临界点分析[0]。按照最差情况分析,假设额外的MACE事件只发生在试验组,则只需要7个MACE事件即可让统计学结论颠倒。在试验组未完成病例中报告出血列中37%的出血患者出现了MACE事件,则估计额外可能发生的MACE事件有98 x 0. 37 = 36例。因此可以得出该试验的数据和结果稳健性较差,缺失数据对结果的影响大,导致疗效整体证据不足。

     1. 2案例2(B药)

     1. 2. 1试验设计及结果

     B药是一种拟用于治疗囊性纤维化的新药,以改善肺功能囊性纤维化是一种罕见病,尚没有可以治愈的药物,患者一般最终由于呼吸系统衰竭而死亡。申请人向监管机构递交了代号301和302的两个111期临床研究数据用于申请B药上市。两个临床试验在设计上类似,都是随机双盲对照平行组试验,用于评价6岁及以上患者中B药(400 mg,每天两次)治疗26周的疗效和安全性。经过筛选并按3:2比例随机化后,测量评价基线、第6周、第14周和第26周的一秒用力呼气容积(FEV1)。主要疗效终点指标是第26周的FEV1值较基线测量时的绝对变化值。301试验纳入ITT人群295人,其中试验组177人,对照组118人。试验组未完成试验的比例高于对照组,其26周的FEV1值均缺失,两组比例分别为37%和28 % o未完成的主要原因是不良事件(包括疾病恶化)和患者自愿退出。用MMRM方法主要分析结果:26周FEV1较基线FEV1绝对变化值的两组比较,试验组-对照组的最小二乘均数及其95%置信区间为83. 1mL (39. 4一126.8 mL } P<0. 001)。

     1.2.2评价考虑

     MMRM方法对缺失值不进行填补,它假设缺失的主要疗效终点数据与完成研究患者的数据是类似的,因此MMRM分析得到的疗效估计是代表了所有患者都能耐受药物不良反应情况下的疗效。301试验中未完成研究的主要原因是不良事件和患者的自愿退出,而且试验组缺失数据的比例高于对照组,所以与MMRM方法本身所基于的假设有明显的冲突,申请人采用预先设定的MMRM方法可能会对疗效估计带来偏倚。

     审评机构采用了应答分析,认为不能忍受药物不良反应的患者也将不会获得其疗效,该方法对于试验组疗效的反映更加准确。应答者分析假定在第6,14和26周的缺失数据代表治疗失败,而且将26周FEV1较基线的变化值按三种界值进行划分,分别是变化至少50}75}100 mL,从而比较两组的成功率。分析结果显示,不论选择哪种界值,结果都是一致的,数值上试验组的成功率高于对照组,但差异无统计学意义(P > 0. OS ),见表1。因此,将带有缺失值的患者纳入分析,该药的疗效证据就显得不充分。

    

     1. 3案例3(C药)

     新药C也是拟用于治疗囊性纤维化,其适应证人群定为6岁及以上跨膜电导调节因子(CFTR)基因中6551 D突变的囊性纤维化患者。申请人完成了两个111期临床研究103b和102,都是随机双盲安慰剂对照的试验,分别评价6一11岁人群和12岁及以上人群用该药治疗24周的疗效和安全性。主要终点指标都是24周较基线FEV1占预测值百分比的绝对变化值。

     主要分析采用非结构化的R矩阵MMRM方法,申请人还在方案中预先定义了多种敏感性分析,如协方差分析(ANCOVA),分层的Wilcoxon检验。缺失值填补分析包括使用不同R矩阵结构的MMRM方法、基于LOCF、基于最差情况、基于脱落原因的填补分析,还定义了如果单组或整体脱落率超过10%,或者不同敏感}h}分析之间若存在不一致的情况,则采用模式混合模型(PMM)评价脱落模式对疗效的影响以及评价数据缺失是随机还是非随机。本文主要阐述102试验结果。

     167人接受了随机化,161人服用了至少一剂次的研究药物,该161人都纳入了FAS集,其中93.8 %的患者完成了24周的治疗期,该试验的未完成率较低(6.2%),试验组为3. 6%,对照组为9. 0% 。

     申请人递交的主要疗效分析结果为,两组24周较基线FEV1占预测值百分比的绝对变化值的差值为10. 6个百分点,95%置信区间为8. 6一12. 6个百分点(P < 0. 0001)。递交的敏感性分析结果,见表20审评机构认为敏感性分析充分,且与主要分析结果一致,充分证实了新药的疗效。

     2讨论

     国际药物监管机构非常重视该问题,ICH E9文件原则性阐述了与缺失数据有关需要考虑的统计学问题。2011年,欧洲药品管理局(EMA)发布了确证性临床试验中缺失数据的技术指南[l0]。2010年,美国食品药品监督管理局(FDA)委托美国国家研究委员会起草并发布了临床试验中缺失数据的预防和处理的报告,并将制定相应的指导原则。

     临床试验方案设计时应该根据试验目的确定相应的估计量,如某试验的主要终点指标是治疗6周后较基线血压的变化,而估计量则是两组治疗6周后较基线血压变化的差值。估计量与研究人群和结局测量有关,可以是两组所有随机化患者间的差异、两组能耐受的患者间的差异、假设所有患者都耐受或依从情况下两组的差异、两组患者依从于治疗期间的结局曲线下面积的差异、两组患者依从于治疗期间的差异。长期结局试验和短期症状治疗试验的目的不同叫,估计量的选择也不同。以治疗抑郁临床试验为例,这种试验的脱落率通常较高。比如,短期试验观察6周评价抑郁评分较基线的变化,主要疗效估计量是假设所有患者都依从时,两组的差异;长期试验是评价药物的维持效果,如观察6个月,主要终点是复发率和复发时间等,主要疗效估计量是两组所有随机化患者的差异,需要收集脱落病例后续数据。临床试验设计方案时应该清晰的定义试验的目的和估计量的选择及相应的分析方法。

     应答分析将早期终止病例的疗效视为失败,是常用的主要分析方法。如何将连续型终点指标离散为二分类,需要预先定义并给出理由。

     单一填补方法是对缺失数据赋予一个值后进行统计分析,如LOCF,BOCF等。LOCF只有在某些情况下才能产生疗效的无偏估计或保守估计。比如,在患者的症状随着时间不断恶化的情况下(如阿尔茨海默氏病),而且试验组比对照组脱落退出的更早,则LOCF很可能有利于试验药。单一填补的方法还有一个潜在的缺点是忽视了填补值的不确定性,从而导致标准误减小,置信区间变窄,造成估计精度高的假象。

     基于统计模型的方法不对缺失值进行填补。对于连续型终点指标,如果是在不同时间点上重复测量,则通常采用线性混合模型,重复测量的混合效应模型[Dal。对于分类和计数终点指标,则采用广义估计方程(GEE)和广义线性混合模型(GLMM) }'S}。这些方法只适用于完全随机缺失和随机缺失两种假设条件下。

     本文的案例3是敏感性分析一个很好的范例,其对缺失数据带来的可能影响进行了充分的阐述,疗效的结论非常稳健。

     (信息来源:天之力医药)

     声明:此文章转载是出于提供更多的信息以交流,不用于商业用途,无意侵犯版权。

    http://www.duyihua.cn
返回 经纬传奇 返回首页 返回百拇医药