临床非劣效性与等效性评价的统计学方法
2014-03-10 MedSci MedSci原创
以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准,它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。然而,如果有现成的疗效肯定的药物,仍用安慰剂对照做临床试验,会面临伦理上的困难。随着愈来愈多可供应用的有效药 物的出现,疗效有突破的新药愈来愈少,因而药物临床研究的目的发生了转变。在阳性对照试验中,更多的情形是探
1 非劣效性/等效性界值
尽管δ值的选定并不容易,但若试验的目的就是为了确认非劣效性/等效性,人们也不得不面对这些困难并解决之。
药理试验设计与统计
对于等效检验来说,多采用Schuirmann[6]提出的双向单侧检验的方法(two one-sided tests),即分别对下限和上限做两次单侧的t检验。因此,为了保证总体I型错误的发生概率控制在一定水平(常用0.05)以内,是否需要利用 Bonferroni方法[7]进行调整还有待进一步的考察和讨论。若需调整,两次单侧检验所得出的P1和P2则需与调整后的α水准进行比较。
2 判定非劣效性/等效性的假设检验方法
T=试验治疗组,也泛指相应组效应的参数(均数或率)
S=标准治疗组,即阳性对照组,也泛指相应组效应的参数(均数或率)
δ=非劣效/等效界值。非劣效性试验用-δ,等效性试验用-δ和δ
2.1检验假设的构建和检验用统计量无效假设(null hypotheses)和备选假设(alternative hypotheses)分别用H0和Ha表示。以α作为总的检验水准。表1列举了几种不同情形下的检验假设和检验统计量计算的通用公式。
表1不同试验类型的检验假设
2.2结论的推断
2.2.1非劣效性试验由于只进行一次单侧检验(one_sided test),若P≤α,则H0被拒绝,可推论T非劣效于S;若P>α,则还不能下非劣效的结论。这里的α含义是,当T比S疗效差,其效应差值实际上超过δ时,错误地下T非劣效于S结论的概率。
2.2.2等效性试验由于需要在两个方向上同时进行两次单侧检验(two one_sided tests),故亦需分别推断。若P1≤α/2和P2≤α/2 同时成立(注意每次检验的水准只用总的检验水准α的一半),则两个无效假设均被拒绝,前者推论T不比S差,后者推论T不比S好,因此综合的推断是T和S具 有等效性;若P1和P2中的任何一个大于α/2,则不可下等效的结论。这里的α含义是,当T与S的疗效差值实际超过δ(包括差-δ以下或好δ以上两种情 况)时,错误地下T和S等效结论的概率。
2.2.3优效性试验有两种不同的情形。一种是严格意义上的,从统计学的角度考虑的优效性,这时所用的假设为通常的零假设,为单侧检验。目前临床试验中一般用此概念。如果能拒绝无效假设,可下统计学意义上优效的结论。当然这种优效性较弱,有时可看作是边缘优效性。
另一种是从临床意义上提出的优出一定量的优效性,姑且也用δ表示该量。此时若拒绝无效假设,可下临床优效性的结论。
假定总的可信度取100(1-α)%,以CL表示可信区间的下限,以CU表示可信区间的上限。
3.1非劣效性试验按单侧100(1-α)%可信度,计算出T-S可信区间的下限CL,若[CL,∞)完全在[-δ,∞)范围内,或者CL>-δ,可下非劣效性的结论。
3.2等效性试验按双侧100(1-α)%可信度,计算出T-S可信区间的下限CL和上限CU,若[CL,CU]完全在[-δ,δ]范围内,或者-δ
3.3优效性试验按单侧100(1-α)%可信度,计算出T-S可信区间的下限CL。若[CL,∞)不包括0,或CL>0,可下统计学优效性的结论;若[CL,∞]完全超出(-∞,δ)范围,或者CL>δ,可下临床优效性的结论。
例2:继续上例。假使:δ=3mmHg,两组合并标准差s=8mmHg,两组样本含量均为120,取单侧α=0.05,方案规定可用两步法(见后)。主要 指标结果:SDBP与基线相比平均下降值,T=14mmHg,S=12mmHg。经计算:d=14-12=2mmHg,sd=8(1/120+1 /120)1/2=1.033mmHg。
表1 不同试验类型的检验假设
试验类型 |
无效假设 |
备选假设 |
检验统计量 |
非劣效性试验 |
H 0: T-S-δ |
H 0: T-S-δ |
z=(d+δ)/st |
等效性试验 |
H 10: T-S-δ |
H 10: T-S-δ |
z1=(d+δ)/st |
|
H 20: T-Sδ |
H 20: T-Sδ |
z2=(δ-d)/st |
|
H 0: T-S0 |
H 0: T-S0 |
z=d/St |
|
H 0: T-S<δ |
H 0: T-S<δ |
z=(d-δ)st |
{nextpage}
第一步:非劣效性评价
单侧假设检验:z=(2+3)/1.033=4.84>1.645(z0.95),P<0.05
单侧95%可信区间下限:CL=2-1.645×1.033=0.301>-3
两种方法均显示,在抗高血压效果方面新药AII拮抗剂与标准药ACE抑制剂相比具有非劣效性。
第二步:优效性评价
单侧假设检验:z=2/1.033=1.936>1.645,P<0.05
单侧95%可信区间下限:CL=0.301>0结果表明,新药AII拮抗剂比标准药ACE抑制剂的抗高血压效果具有统计学意义优效性。
ICHE9指导原则中的建议[1]更保守些,若按α取0.025的标准判断,非劣效性评价的z=4.84>1.96(z0.975),P<0.025,可下非劣效性结论。但是,因优效性评价的z=1.936<1.96,P>0.025,尚不能认为具有统计学优效性,更达不到临床意义上的优效性。
有一种情况值得注意,即求得的可信区间的下限大于-δ,但上限却比0小,管理当局比如美国的FDA可能仍然把试验药看作和标准药不等效,甚至比标准药还差,尽管非劣效性的标准已经达到了。这一额外增加的标准之严格,似乎并不是从统计学意义上考虑的。事实上,这对很高效地完成试验而出现了窄小的CI可能是不公正的。
4非劣效性/等效性试验样本含量估计及检验效能
对服从正态分布的数据(定量指标)和服从二项分布的数据(率指标)分别介绍。
4.1定量指标
4.1.1非劣效性试验按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T=S的条件下,非劣效性试验每组需要的样本含量为:
n=2[(Z1-α+z1-β)(s/δ)]2
检验效能为:
1-β=Ф[δ(2s2/n)-1/2-z1-α]
式中s为两组的合并标准差。n为每组的样本含量。Ф[x]代表标准正态分布下x左侧的概率Pr[X≤x]。
例3:上例继续。若按非劣效性设计试验,假定,α=0.05,β=0.10,将有关量:z0.95=1.645,z0.90=1.282,s=8mmHg,δ=3mmHg代入公式则可求得每组的样本含量为:n=2[(1.645+1.282)(8/3)]2=121.8≈122
4.1.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2),要求允许的二类误差概率不超过β,在T=S的条件下,等效性试验每组需要的样本含量为:
n=2[(Z1-α/2+z1-β)(s/δ)]2
检验效能为:
1-β=2Ф[δ(2s2/n)-1/2-z1-α]-1
例4:上例继续。假定各参数不变,只是按等效性试验来进行设计,则每组需要样本含量:
n=2[(1.96+1.282)(8/3)]2=149.5≈150
可见,等效性试验设计的每组的样本含量要比非劣效性试验增加近30例。
4.1.3优效性试验
①优于阳性标准对照组的试验:按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T优于S的效应差量为ε,即T-S=ε的条件下,优效性试验每组需要的样本含量为:
n=2[(Z1-α+z1-β)(s/ε)]2
检验效能为:
1-β=Ф[ε(2s2/n)-1/2-z1-α]
例5:上例继续。假定单侧α=0.05,β=0.10,ε=2。即按0.05的检验水准,在90%的把握度下,检出试验组比阳性对照组优2mmHg每组所需的样本含量为:
n=2[(1.645+1.282)(8/2)]2=274.2≈274
②优于安慰剂组的试验:按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T优于S有临床意义的差量为Δ时,优效性试验每组需要的样本含量为:
n=2[(Z1-α+z1-β)(s/Δ)]2
检验效能为:
1-β=Ф[△(2s2/n)-1/2-z1-α]
例6:上例继续。假定设计为优于安慰剂的试验。单侧α=0.05,β=0.10,Δ=10。即按0.05的检验水准,在90%的把握度下,检出试验组比安慰剂组优10mmHg每组所需的样本含量为:
n=2[(1.645+1.282)(8/10)]2=10.97≈12
由上可见,采用阳性对照的非劣效性试验、等效性试验、优效性试验所需的样本含量均比安慰剂对照试验要大。因为:z1-α
有关的数学符号及意义同定量指标。
4.2.1非劣效性试验按照单侧的检验水准α,要求允许的二类误差概率不超过β,在两组总体率T=S=π的条件下,非劣效性试验每组需要的样本含量为:
n=2[π(1-π)δ-2](z1-α+z1-β)2
检验效能为:
1-β=Ф[δ{π(1-π)(2/n)}-1/2-z1-α]
例7:治疗手足癣常规推荐伊曲康唑100mg用药4周方案,考虑到该药有极高的组织亲和性,停药后可在角质层持续停留4周,这种药动学特性提示服药1周的短程疗法可能对皮肤真菌病有效。为此设计了400mg1周和100mg4周的比较试验,考察新方案的疗效是否不比常规方案差。以临床治愈率作为评价终点,假设两方案的疗效相同,根据以前的疗效及有关要求,取:T=S=π=0.80,δ=0.15,α=0.05,β=0.20。则z0.95=1.645,z0.80=0.845,每组需要的样本含量按公式计算如下:
n=2[0.80(1-0.80)0.15-2](1.645+0.845)2=88.2≈88
4.2.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2),要求允许的二类误差概率不超过β,在两组总体率T=S=π的条件下,等效性试验每组需要的样本含量为:
n=2[π(1-π)δ-2](z1-α/2+z1-β)2
检验效能为:
1-β=2Ф[δ{π(1-π)(2/n)}-1/2-z1-α]-1
例8:上例如保持各项参数不变,只是按照等效性试验来设计,其每种方案所需的样本含量为:
n=2[0.80(1-0.80)0.15-2](1.960+0.845)2=111.9≈112
值得提出的是,以上非劣效性/等效性试验样本含量的计算均建立在两组的真实差别为0,即在T=S的前提下,按检验水准α能检验出非劣效性/等效性的概率作为检验效能。如果试验药效实际上低于阳性对照药,但在δ以内时(这在理论上和实际中均是完全可能的),此时如仍用上述的计算公式计算样本含量,将会低估这一检验效能时所应该需要的样本含量,或者说达不到目前预定的检验效能[8]。例如[5],按照T=S=π=0.90,δ=0.1,α=0.05,β=0.20设计的等效性试验每组需要142例,如果试验组的的真实疗效是85%而不是90%,两组差别仅为5%,小于允许的10%(δ=0.1),仍符合等效性的条件。此时如果每组用142例进行试验,则下等效结论的机会仅为25%,检验效能很小,说明样本含量不够。
当然,在实际工作中样本含量的估计还应考虑到病人的脱落等问题[9],此不祥述。
5 讨论
传统假设检验差别无显著性(P>α)与非劣效性/等效性试验的非劣效/等效(P≤α)是两种不同的概念,前者表示现有数据因例数少、误差大或参数本身相近等原因尚不能作出两组差别有统计学意义的结论,后者表示根据临床专业上的界值标准及统计上的α水准,可作出两组非劣效或等效且有统计学意义的结论。从理论及实际分析看[10],两组差别无统计学意义(P>α),不一定存在非劣效性或等效性;两组差别有统计学意义(P≤α),也可能是非劣效或等效的,因此,一般假设检验意义下的结论决不可代替非劣效性或等效性检验。
从实际的结果看,若试验用药组和标准阳性对照组样本效应值的差值小于δ时,可进行非劣效性/等效性的评价。如果T组比S组样本效应的差值比δ还大时,则无需做上述的任何检验,因为即便做了也必定得不出非劣效或等效的结论。如果T组比S组的样本效应值好的幅度比δ大时,倒是可以做一下临床意义上的优效性检验,以确认T的疗效在临床疗效上确实比S好,这在临床研究中也是具有非常重要实际意义的[7,10]。
如果开始是按照非劣效性试验来设计的,而且T样本的效应好于S样本,当非劣效性试验的无效假设被拒绝,而可以推断T比S具有非劣效性时,可进一步检验T的优效性[2]。我们可称之为两步法或步进法。Morikawa和Yoshida概括为“单侧等效性检验与单侧优效性检验组合法”[11]。尽管在实际中并不一定要求对检验水准α进行校正,但是,要想这样做,应在设计阶段考虑到,并事先在试验方案中讲明,而不是到统计分析阶段根据检验结论的提示才想到要作进一步分析。
因为我们经常用阳性对照,试验药和阳性药在临床疗效上非劣效、相当或优效时,习惯上都笼统地称为“等效”,可以批准上市。但严格意义上的等效性与之是有区别的,正如生物利用度等效性研究中的等效性一样,试验药比阳性药效应低到一定程度或高到一定程度都不能说等效[12,13]。实际上,临床等效性并不要求这么严格,因为我们最关心的是新药是否不比阳性对照药差,至于在另一个方向上的好与不好并不关心,或者说没有必要关心。因而阳性对照试验中大多数应该属于非劣效性试验。当然,即使用了等效性试验方法,对新药评审来说,也无可厚非,因为这并未降低标准,从某种程度上说还抬高了标准。
本文所用的统计推断方法和一般情况下统计推断方法应用条件相似,当不符合统计方法的应用条件时应考虑进行校正或另选其它的方法,例如,两组均数比较方差不齐时,可采用Satterthwaite校正法等进行检验[6];两组率比较例数较少或率较接近0或1时,可采用精确概率法等。随着临床疗效非劣效性/等效性评价的不断应用,对有些统计问题,譬如意向性分析(ITT分析)和符合方案集分析(PP分析)的选用、不符合统计应用条件的处理、缺失值及异常值的处理等还需作更深入的研究和探讨,以满足实际工作的需要和要求的不断提高。
我国目前已提出新药临床等效性试验的要求[14],但仍存在着标准偏低或不够明确的不足。例如,60对的试验例数在许多情况下检验效能不足,对临床等效界值δ并未明确指出,还有α、β的标准掌握不够一致等问题,这些均不利于新药的审评。从我国的临床试验实际看,已有进行等效性分析的实例,但往往不是从一开始就按照非劣效性/等效性试验来设计的,因而到最后统计分析时才确定的一些标准,在把握上容易出偏差。严格讲,非劣效性/等效性试验的标准(如样本含量、δ、α、β等等)都要在设计阶段确定,以后非必要时不得更改。作者认为,对临床非劣效性/等效性试验,应参照生物利用度等效性评价的指导原则,建立起临床疗效的非劣效性/等效性评价的指导性原则或标准,以使研究者有章可循。
本文介绍的主要是有关统计学方面的事项,对其他方面的问题已超出范围,但要提醒大家,非劣效性/等效性试验的所有设计、实施、分析等涉及到的申办者方、研究者方、管理当局等方面的工作程序、职责和要求等一点也不能减少
{nextpage}
劣效、等效和优效性检验及其适用范围
无效假设
备择假设
结论:如P>0.05,按α=0.05的检验水准不能拒绝H0假设,如P≤0.05,则接受H1假设。
如果治疗差异(A药的疗效-B药的疗效)>0,则试验药的疗效较好;治疗差异<0,则对照药疗效较好;如果我们允许A药疗效比B药疗效低一定 范围,仍然认为两药疗效相当,即确定Δ表示临床意义上判断疗效不差所允许的最大差异值,则如果治疗差异>-Δ,便是试验药非劣效于对照药,此处的Δ 称为非劣效试验的判断界值(margin)。
无效假设
备择假设
结论:如P>0.025,按单侧α=0.025的检验水准不能拒绝H0假设,即无法判断A药不差于B药;如P≤0.025,则接受H1假设,可以认为A药不差于B药。
无效假设
备择假设
结论:如P1>0.025 或 P2>0.025,按2α=0.05的检验水准不能拒绝H0假设,即无法判断A药等效于B药;如P1≤0.025 且 P2≤0.025,则接受H1假设,可以认为A药等效于B药。
无效假设
备择假设
结论:如P>0.025,按单侧α=0.025的检验水准不能拒绝H0假设,即无法判断A药优于B药;如P≤0.025,则接受H1假设,可以认为A药优于B药。
二、 非劣效、等效和优效检验的适用范围
本网站所有内容来源注明为“梅斯医学”或“MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明来源为“梅斯医学”。其它来源的文章系转载文章,或“梅斯号”自媒体发布的文章,仅系出于传递更多信息之目的,本站仅负责审核内容合规,其内容不代表本站立场,本站不负责内容的准确性和版权。如果存在侵权、或不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
#非劣效#
15
#非劣效性#
15
#统计学#
15
#评价#
14