临床非劣效性与等效性评价的统计学方法

2014-03-10 MedSci MedSci原创

     以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准,它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。然而,如果有现成的疗效肯定的药物,仍用安慰剂对照做临床试验,会面临伦理上的困难。随着愈来愈多可供应用的有效药 物的出现,疗效有突破的新药愈来愈少,因而药物临床研究的目的发生了转变。在阳性对照试验中,更多的情形是探

     以安慰剂作为对照的随机双盲临床试验一直被视为药物开发中的金标准,它在确认新的试验药物的疗效优于安慰剂方面发挥着重要的作用。然而,如果有现成的疗效肯定的药物,仍用安慰剂对照做临床试验,会面临伦理上的困难。随着愈来愈多可供应用的有效药 物的出现,疗效有突破的新药愈来愈少,因而药物临床研究的目的发生了转变。在阳性对照试验中,更多的情形是探求新药与标准的有效药物相比其疗效是否不差或 疗效相等(严格地说,疗效相等应该是既不比标准药差,也不比标准药好),而并不一定要知道新药是否优于标准药,由此而提出了非劣效性/等效性试验 (noninferiority/equivalence trials)[1]。

     非劣效性/等效性试验与通常意义下的优效性试验(superiority trials)在设计和统计分析上是有区别的。近年来,尽管对设计和分析该类试验 已给予强调,但遗憾的是,许多非劣效性/等效性临床试验的评价缺少针对性,仍仿照安慰剂对照试验的方式进行,因而导致了非劣效性/等效性试验的样本含量估 计、无效假设和备选假设确定、统计学分析和结论推断等方面的不够合理,难以达到设想的目的[2]。

     本文拟主要介绍有关非劣效性/等效性试验中涉及的统计学分析方面的一些具体问题,至于在设计时还必须考虑的有关对照的选定等问题可参考文献[2]及ICH文件E10:“临床试验对照的选择”[3]。

1 非劣效性/等效性界值

     从临床上讲,一种新药的药效不比标准对照药差,到底临床上可接受的最大允许的范围是多少呢?或者说,新药比对照药最低到多大程度才能算“非劣效 (noninferiority)”呢?类似地,新药和对照药的疗效相比,最低不能低于多少以及最高不能超过多少才可认为是“等效 (equivalence)”呢?这就涉及到临床非劣效性/等效性界值(nonferiority/equivalence margin)的问题。为叙述 方便,我们统一用δ表示界值,并以-δ表示劣侧界值,以δ表示优侧界值。显然,非劣效性试验仅用-δ一个界值,而等效性试验要用-δ和δ两个界值。

     δ是一个有临床意义的值,该值的选定至关重要。若δ选大了,将把药效达不到要求的药物判断为非劣效或等效而推向市场;若δ选小了,则可能会埋没一些本可推 广使用的药物。这一数值不应大于安慰剂对照的优效性试验确认有效的效应差值△。一般来说,δ的决定应该由临床学家和统计学家商讨联合做出,而不是单独地依 赖统计学家。注意,选定δ时一定要从临床药效角度,结合以往的试验结果,必要时进行成本效益分析等诸多方面反复论证。δ界值必须在试验的设计阶段决定并在 试验方案中阐明,一旦确定,事后不得随意更改。除非发现新的δ界值比原先选定的δ界值更合理,在揭盲之前可作更正,并在修订方案中陈述理由。一旦揭盲,不得更改。

      根据既往的经验[4],对有些临床定量指标的等效界值,有学者提供了可供参考的建议标准,例如血压可取为0.67kPa(5mmHg),胆固醇可取为 0.52mmol.L-1(20mg.dl-1),白细胞可取为0.5×109.L-1(500个/mm3);当难以确定时,可酌取1/5~1/2个标准 差或参比组均数的1/10~1/5。对两组率而言,有人建议δ最大不应超过对照组样本率的1/5。有作者指出,δ不能过小,否则,所需的样本含量可能会不 切实际。

尽管δ值的选定并不容易,但若试验的目的就是为了确认非劣效性/等效性,人们也不得不面对这些困难并解决之。

药理试验设计与统计

      例1:为了显示一种新药血管紧张素Ⅱ拮抗剂(AⅡantagonist)治疗轻中度原发性高血压的降压效果是否不差于标准药血管紧张素转换酶抑制剂(ACE inhibitor),请按照非劣效性试验的要求制定非劣效界值δ。

      该试验以药物ACE作为阳性对照,试验的主要终点指标取仰卧舒张压(SDBP,单位为mmHg)。既往的许多ACE与安慰剂的对照试验显示,两组SDBP 与基线相比平均舒张压下降值的差值至少达到10mmHg才能认可药物的疗效,即最小的药物效应差值△=10mmHg。基于临床和统计学的综合考虑,经讨论认为用δ=3mmHg(约为△的30%)作为非劣效性试验的界值是合理的。

对于等效检验来说,多采用Schuirmann[6]提出的双向单侧检验的方法(two one-sided tests),即分别对下限和上限做两次单侧的t检验。因此,为了保证总体I型错误的发生概率控制在一定水平(常用0.05)以内,是否需要利用 Bonferroni方法[7]进行调整还有待进一步的考察和讨论。若需调整,两次单侧检验所得出的P1和P2则需与调整后的α水准进行比较。

2 判定非劣效性/等效性的假设检验方法

      假设检验(hypotheses testing)是基于一定的检验假设进行推断的一类方法。我们平时所做的绝大多数检验假设为两组相等的零假设,其统计推 断往往仅限于两者的差别有无统计学意义,若P>α,意味着统计上“不能拒绝零假设”,但并非说明零假设成立,更没有理由说两组相等,因为检验的效能 (power of test)未知;如P≤α,虽然可“拒绝零假设”,但也只能推断两者在统计上有差别,而不能评价差别的大小。这难以满足临床实际中需要评 价疗效差别的要求。为了能对非劣效性/等效性进行推断,需要建立有别于传统的检验假设[2,5,6]。为方便叙述,统一用如下符号作为组别或参数:

T=试验治疗组,也泛指相应组效应的参数(均数或率)

S=标准治疗组,即阳性对照组,也泛指相应组效应的参数(均数或率)

δ=非劣效/等效界值。非劣效性试验用-δ,等效性试验用-δ和δ

2.1检验假设的构建和检验用统计量无效假设(null hypotheses)和备选假设(alternative hypotheses)分别用H0和Ha表示。以α作为总的检验水准。表1列举了几种不同情形下的检验假设和检验统计量计算的通用公式。

表1不同试验类型的检验假设

      本表所示的检验统计量假设数据来自大样本,数据分布正常。其中d为T组样本效应值减去S组样本效应值的差值,即d=T-S,sd为d的标准误。z为检验统计量,服从标准正态分布。

2.2结论的推断

2.2.1非劣效性试验由于只进行一次单侧检验(one_sided test),若P≤α,则H0被拒绝,可推论T非劣效于S;若P>α,则还不能下非劣效的结论。这里的α含义是,当T比S疗效差,其效应差值实际上超过δ时,错误地下T非劣效于S结论的概率。

2.2.2等效性试验由于需要在两个方向上同时进行两次单侧检验(two one_sided tests),故亦需分别推断。若P1≤α/2和P2≤α/2 同时成立(注意每次检验的水准只用总的检验水准α的一半),则两个无效假设均被拒绝,前者推论T不比S差,后者推论T不比S好,因此综合的推断是T和S具 有等效性;若P1和P2中的任何一个大于α/2,则不可下等效的结论。这里的α含义是,当T与S的疗效差值实际超过δ(包括差-δ以下或好δ以上两种情 况)时,错误地下T和S等效结论的概率。

2.2.3优效性试验有两种不同的情形。一种是严格意义上的,从统计学的角度考虑的优效性,这时所用的假设为通常的零假设,为单侧检验。目前临床试验中一般用此概念。如果能拒绝无效假设,可下统计学意义上优效的结论。当然这种优效性较弱,有时可看作是边缘优效性。

另一种是从临床意义上提出的优出一定量的优效性,姑且也用δ表示该量。此时若拒绝无效假设,可下临床优效性的结论。

 3判定非劣效性/等效性的可信区间方法

       可信区间方法亦可用于非劣效性/等效性的判定,该方法通过构建有关参数差别的可信区间(confidence interval,缩写为CI)作为评价的决 策准则。CI方法在ICH的指导原则中曾予以推荐,指出:对非劣效性或等效性试验安全性与耐受性的评价,应用可信区间比用假设检验更佳[1]。一些具体的 方法,可参见文献[6]。

假定总的可信度取100(1-α)%,以CL表示可信区间的下限,以CU表示可信区间的上限。

3.1非劣效性试验按单侧100(1-α)%可信度,计算出T-S可信区间的下限CL,若[CL,∞)完全在[-δ,∞)范围内,或者CL>-δ,可下非劣效性的结论。

3.2等效性试验按双侧100(1-α)%可信度,计算出T-S可信区间的下限CL和上限CU,若[CL,CU]完全在[-δ,δ]范围内,或者-δ

3.3优效性试验按单侧100(1-α)%可信度,计算出T-S可信区间的下限CL。若[CL,∞)不包括0,或CL>0,可下统计学优效性的结论;若[CL,∞]完全超出(-∞,δ)范围,或者CL>δ,可下临床优效性的结论。

例2:继续上例。假使:δ=3mmHg,两组合并标准差s=8mmHg,两组样本含量均为120,取单侧α=0.05,方案规定可用两步法(见后)。主要 指标结果:SDBP与基线相比平均下降值,T=14mmHg,S=12mmHg。经计算:d=14-12=2mmHg,sd=8(1/120+1 /120)1/2=1.033mmHg。

表1 不同试验类型的检验假设

试验类型

无效假设

备选假设

检验统计量

非劣效性试验

H 0: T-S-δ

H 0: T-S-δ

z=(d+δ)/st

等效性试验

H 10: T-S-δ

H 10: T-S-δ

z1=(d+δ)/st

 

H 20: T-Sδ

H 20: T-Sδ

z2=(δ-d)/st

 

H 0: T-S0

H 0: T-S0

z=d/St

 

H 0: T-S<δ

H 0: T-S<δ

z=(d-δ)st



{nextpage}
第一步:非劣效性评价 
单侧假设检验:z=(2+3)/1.033=4.84>1.645(z0.95),P<0.05 
单侧95%可信区间下限:CL=2-1.645×1.033=0.301>-3 
两种方法均显示,在抗高血压效果方面新药AII拮抗剂与标准药ACE抑制剂相比具有非劣效性。
 第二步:优效性评价
单侧假设检验:z=2/1.033=1.936>1.645,P<0.05  

单侧95%可信区间下限:CL=0.301>0结果表明,新药AII拮抗剂比标准药ACE抑制剂的抗高血压效果具有统计学意义优效性。 
ICHE9指导原则中的建议[1]更保守些,若按α取0.025的标准判断,非劣效性评价的z=4.84>1.96(z0.975),P<0.025,可下非劣效性结论。但是,因优效性评价的z=1.936<1.96,P>0.025,尚不能认为具有统计学优效性,更达不到临床意义上的优效性。 
有一种情况值得注意,即求得的可信区间的下限大于-δ,但上限却比0小,管理当局比如美国的FDA可能仍然把试验药看作和标准药不等效,甚至比标准药还差,尽管非劣效性的标准已经达到了。这一额外增加的标准之严格,似乎并不是从统计学意义上考虑的。事实上,这对很高效地完成试验而出现了窄小的CI可能是不公正的。 
4非劣效性/等效性试验样本含量估计及检验效能 
对服从正态分布的数据(定量指标)和服从二项分布的数据(率指标)分别介绍。 
4.1定量指标 
4.1.1非劣效性试验按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T=S的条件下,非劣效性试验每组需要的样本含量为: 
n=2[(Z1-α+z1-β)(s/δ)]2 
检验效能为: 
1-β=Ф[δ(2s2/n)-1/2-z1-α] 
式中s为两组的合并标准差。n为每组的样本含量。Ф[x]代表标准正态分布下x左侧的概率Pr[X≤x]。 
例3:上例继续。若按非劣效性设计试验,假定,α=0.05,β=0.10,将有关量:z0.95=1.645,z0.90=1.282,s=8mmHg,δ=3mmHg代入公式则可求得每组的样本含量为:n=2[(1.645+1.282)(8/3)]2=121.8≈122  

4.1.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2),要求允许的二类误差概率不超过β,在T=S的条件下,等效性试验每组需要的样本含量为: 
n=2[(Z1-α/2+z1-β)(s/δ)]2 
检验效能为: 
1-β=2Ф[δ(2s2/n)-1/2-z1-α]-1 
例4:上例继续。假定各参数不变,只是按等效性试验来进行设计,则每组需要样本含量: 
n=2[(1.96+1.282)(8/3)]2=149.5≈150 
可见,等效性试验设计的每组的样本含量要比非劣效性试验增加近30例。 
4.1.3优效性试验 
①优于阳性标准对照组的试验:按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T优于S的效应差量为ε,即T-S=ε的条件下,优效性试验每组需要的样本含量为: 
n=2[(Z1-α+z1-β)(s/ε)]2 
检验效能为: 
1-β=Ф[ε(2s2/n)-1/2-z1-α] 
例5:上例继续。假定单侧α=0.05,β=0.10,ε=2。即按0.05的检验水准,在90%的把握度下,检出试验组比阳性对照组优2mmHg每组所需的样本含量为: 
n=2[(1.645+1.282)(8/2)]2=274.2≈274 
②优于安慰剂组的试验:按照单侧的检验水准α,要求允许的二类误差概率不超过β,在T优于S有临床意义的差量为Δ时,优效性试验每组需要的样本含量为: 
n=2[(Z1-α+z1-β)(s/Δ)]2 
检验效能为: 
1-β=Ф[△(2s2/n)-1/2-z1-α] 
例6:上例继续。假定设计为优于安慰剂的试验。单侧α=0.05,β=0.10,Δ=10。即按0.05的检验水准,在90%的把握度下,检出试验组比安慰剂组优10mmHg每组所需的样本含量为: 
n=2[(1.645+1.282)(8/10)]2=10.97≈12 
由上可见,采用阳性对照的非劣效性试验、等效性试验、优效性试验所需的样本含量均比安慰剂对照试验要大。因为:z1-α4.2率指标 
有关的数学符号及意义同定量指标。 
4.2.1非劣效性试验按照单侧的检验水准α,要求允许的二类误差概率不超过β,在两组总体率T=S=π的条件下,非劣效性试验每组需要的样本含量为: 
n=2[π(1-π)δ-2](z1-α+z1-β)2 
检验效能为: 
1-β=Ф[δ{π(1-π)(2/n)}-1/2-z1-α] 


例7:治疗手足癣常规推荐伊曲康唑100mg用药4周方案,考虑到该药有极高的组织亲和性,停药后可在角质层持续停留4周,这种药动学特性提示服药1周的短程疗法可能对皮肤真菌病有效。为此设计了400mg1周和100mg4周的比较试验,考察新方案的疗效是否不比常规方案差。以临床治愈率作为评价终点,假设两方案的疗效相同,根据以前的疗效及有关要求,取:T=S=π=0.80,δ=0.15,α=0.05,β=0.20。则z0.95=1.645,z0.80=0.845,每组需要的样本含量按公式计算如下: 
n=2[0.80(1-0.80)0.15-2](1.645+0.845)2=88.2≈88 
4.2.2等效性试验按照双侧的检验水准α(等同于按单侧的α/2),要求允许的二类误差概率不超过β,在两组总体率T=S=π的条件下,等效性试验每组需要的样本含量为: 
n=2[π(1-π)δ-2](z1-α/2+z1-β)2 
检验效能为: 
1-β=2Ф[δ{π(1-π)(2/n)}-1/2-z1-α]-1 
例8:上例如保持各项参数不变,只是按照等效性试验来设计,其每种方案所需的样本含量为: 
n=2[0.80(1-0.80)0.15-2](1.960+0.845)2=111.9≈112 
值得提出的是,以上非劣效性/等效性试验样本含量的计算均建立在两组的真实差别为0,即在T=S的前提下,按检验水准α能检验出非劣效性/等效性的概率作为检验效能。如果试验药效实际上低于阳性对照药,但在δ以内时(这在理论上和实际中均是完全可能的),此时如仍用上述的计算公式计算样本含量,将会低估这一检验效能时所应该需要的样本含量,或者说达不到目前预定的检验效能[8]。例如[5],按照T=S=π=0.90,δ=0.1,α=0.05,β=0.20设计的等效性试验每组需要142例,如果试验组的的真实疗效是85%而不是90%,两组差别仅为5%,小于允许的10%(δ=0.1),仍符合等效性的条件。此时如果每组用142例进行试验,则下等效结论的机会仅为25%,检验效能很小,说明样本含量不够。 
当然,在实际工作中样本含量的估计还应考虑到病人的脱落等问题[9],此不祥述。

 5 讨论 

传统假设检验差别无显著性(P>α)与非劣效性/等效性试验的非劣效/等效(P≤α)是两种不同的概念,前者表示现有数据因例数少、误差大或参数本身相近等原因尚不能作出两组差别有统计学意义的结论,后者表示根据临床专业上的界值标准及统计上的α水准,可作出两组非劣效或等效且有统计学意义的结论。从理论及实际分析看[10],两组差别无统计学意义(P>α),不一定存在非劣效性或等效性;两组差别有统计学意义(P≤α),也可能是非劣效或等效的,因此,一般假设检验意义下的结论决不可代替非劣效性或等效性检验。
从实际的结果看,若试验用药组和标准阳性对照组样本效应值的差值小于δ时,可进行非劣效性/等效性的评价。如果T组比S组样本效应的差值比δ还大时,则无需做上述的任何检验,因为即便做了也必定得不出非劣效或等效的结论。如果T组比S组的样本效应值好的幅度比δ大时,倒是可以做一下临床意义上的优效性检验,以确认T的疗效在临床疗效上确实比S好,这在临床研究中也是具有非常重要实际意义的[7,10]。
如果开始是按照非劣效性试验来设计的,而且T样本的效应好于S样本,当非劣效性试验的无效假设被拒绝,而可以推断T比S具有非劣效性时,可进一步检验T的优效性[2]。我们可称之为两步法或步进法。Morikawa和Yoshida概括为“单侧等效性检验与单侧优效性检验组合法”[11]。尽管在实际中并不一定要求对检验水准α进行校正,但是,要想这样做,应在设计阶段考虑到,并事先在试验方案中讲明,而不是到统计分析阶段根据检验结论的提示才想到要作进一步分析。
因为我们经常用阳性对照,试验药和阳性药在临床疗效上非劣效、相当或优效时,习惯上都笼统地称为“等效”,可以批准上市。但严格意义上的等效性与之是有区别的,正如生物利用度等效性研究中的等效性一样,试验药比阳性药效应低到一定程度或高到一定程度都不能说等效[12,13]。实际上,临床等效性并不要求这么严格,因为我们最关心的是新药是否不比阳性对照药差,至于在另一个方向上的好与不好并不关心,或者说没有必要关心。因而阳性对照试验中大多数应该属于非劣效性试验。当然,即使用了等效性试验方法,对新药评审来说,也无可厚非,因为这并未降低标准,从某种程度上说还抬高了标准。
本文所用的统计推断方法和一般情况下统计推断方法应用条件相似,当不符合统计方法的应用条件时应考虑进行校正或另选其它的方法,例如,两组均数比较方差不齐时,可采用Satterthwaite校正法等进行检验[6];两组率比较例数较少或率较接近0或1时,可采用精确概率法等。随着临床疗效非劣效性/等效性评价的不断应用,对有些统计问题,譬如意向性分析(ITT分析)和符合方案集分析(PP分析)的选用、不符合统计应用条件的处理、缺失值及异常值的处理等还需作更深入的研究和探讨,以满足实际工作的需要和要求的不断提高。
我国目前已提出新药临床等效性试验的要求[14],但仍存在着标准偏低或不够明确的不足。例如,60对的试验例数在许多情况下检验效能不足,对临床等效界值δ并未明确指出,还有α、β的标准掌握不够一致等问题,这些均不利于新药的审评。从我国的临床试验实际看,已有进行等效性分析的实例,但往往不是从一开始就按照非劣效性/等效性试验来设计的,因而到最后统计分析时才确定的一些标准,在把握上容易出偏差。严格讲,非劣效性/等效性试验的标准(如样本含量、δ、α、β等等)都要在设计阶段确定,以后非必要时不得更改。作者认为,对临床非劣效性/等效性试验,应参照生物利用度等效性评价的指导原则,建立起临床疗效的非劣效性/等效性评价的指导性原则或标准,以使研究者有章可循。
本文介绍的主要是有关统计学方面的事项,对其他方面的问题已超出范围,但要提醒大家,非劣效性/等效性试验的所有设计、实施、分析等涉及到的申办者方、研究者方、管理当局等方面的工作程序、职责和要求等一点也不能减少

 {nextpage}

劣效、等效和优效性检验及其适用范围
 
  一、 传统检验和区间检验
   药品的临床试验一般要求设计为随机、盲法和对照药物比较的研究,以判断和区别其实际的疗效如何,审评中我们常见到的错误是采用如下传统的假设检验:
无效假设   H0:  A药的疗效-B药的疗效=0
备择假设   H1: A药的疗效≠B药的疗效
结论:如P>0.05,按α=0.05的检验水准不能拒绝H0假设,如P≤0.05,则接受H1假设。
   目前已经公认这种传统的假设检验(又称显著性检验)用于临床试验判断药物的疗效是不合理的,它不能准确区分两药疗效差异的方向性和体现差异大小所揭示的临床实际意义,因此国际普遍采用非劣效、等效或优效性假设检验。
   传统的假设检验之所以不合理,在于两个方面,一方面它所推断的是两个总体均数在统计学是否不相等,是纯粹的统计学意义,而未体现实际的临床意 义,虽然有单双侧之分,如单侧为H0:μ1-μ2=0,H1: μ1-μ2>0(或μ1-μ2<0),但它检验的依然是样本所代表的总体均数的统计学含义,而未将实际临床意义包含进来考虑。另一方面,对于 传统检验的结论,如P>0.05,表示两药疗效的差别无统计学意义, 不拒绝H0假设,说明现有数据尚无法对两药疗效的总体均数是否不等的判断下结论,并不是当然的接受H0假设,并非认为H0假设必然成立而两药疗效的总体均 数一定相等,此时有可能两药疗效的总体均数确实相似,也有可能是检验效能(把握度)不够,尚需更大样本量进行检验;如P≤0.05,两药疗效的差别有统计 学意义,也就是说,两药疗效的总体均数确实不相等,但这种统计学意义的差异不一定具有实际的临床意义,也可能其临床意义却是优效、等效或非劣效的。
   因此,临床试验的统计学家们提出了区间假设检验的方法,提出以临床意义的差异Δ来进行假设检验,这就是非劣效、等效和优效性检验的概念和方法。
    非劣效性试验指主要研究目的是显示对试验药的反应在临床意义上不差于(非劣于)对照药的试验 (ICH-E9的定义)  
如果治疗差异(A药的疗效-B药的疗效)>0,则试验药的疗效较好;治疗差异<0,则对照药疗效较好;如果我们允许A药疗效比B药疗效低一定 范围,仍然认为两药疗效相当,即确定Δ表示临床意义上判断疗效不差所允许的最大差异值,则如果治疗差异>-Δ,便是试验药非劣效于对照药,此处的Δ 称为非劣效试验的判断界值(margin)。  非劣效试验的假设检验是
无效假设   H0:  A药的疗效-B药的疗效≤-Δ
备择假设   H1: A药的疗效-B药的疗效>-Δ
结论:如P>0.025,按单侧α=0.025的检验水准不能拒绝H0假设,即无法判断A药不差于B药;如P≤0.025,则接受H1假设,可以认为A药不差于B药。
   等效性试验指主要研究目的是要显示两种或多种处理的反应间差异的大小在临床上并无重要性的试验,通常通过显示真正的差异在临床上可以接受的等效的上下界值之间来证实 (ICH-E9的定义) 。等效性试验的假设检验是
无效假设   H0:  A药的疗效-B药的疗效≤-Δ,或 A药的疗效-B药的疗效≥Δ
备择假设   H1:-Δ< A药的疗效-B药的疗效 <Δ
结论:如P1>0.025 或 P2>0.025,按2α=0.05的检验水准不能拒绝H0假设,即无法判断A药等效于B药;如P1≤0.025 且 P2≤0.025,则接受H1假设,可以认为A药等效于B药。
  优效性试验指主要研究目的是显示所研究的药物的反应优于对比制剂(阳性或安慰剂对照)的试验(ICH-E9的定义)。优效性试验的假设检验是
无效假设   H0:  A药的疗效-B药的疗效≤Δ
备择假设   H1: A药的疗效-B药的疗效>Δ
结论:如P>0.025,按单侧α=0.025的检验水准不能拒绝H0假设,即无法判断A药优于B药;如P≤0.025,则接受H1假设,可以认为A药优于B药。
   实际应用中,更多采用的是可信区间法检验,它是分析时最直接的方法,而且比假设检验提供更多的信息。非劣效性试验中我们仅关注一个方向的可能 差异,因此试验药与对照药的疗效差异的单侧97.5%(或双侧95%)可信区间应当完全在-Δ值的右侧,即其单侧97.5%(或双侧95%)可信区间的下 限应该大于设定的判断界值-Δ,即[单侧97.5%CI (A-B)的下限 ] >-Δ(或[双侧95% CI (A-B)下限] >-Δ),类似道理,等效性试验中等效的结果应该是其95%可信区间范围包括在-Δ与Δ之间,即-Δ< [95% CI (A-B)] < Δ,而优效性试验的结果则应该是其单侧97.5%(或双侧95%)可信区间的下限大于Δ值,即 [单侧97.5% CI (A-B)下限] >Δ(或[双侧95% CI (A-B)下限] >Δ)。

二、 非劣效、等效和优效检验的适用范围
   对于一个新研发的试验药,通常具有某方面的优势,如给药方便、耐受性较好,毒性较低或价格便宜等等,一般需要与安慰剂进行优效性试验以比较其 真正的疗效和安全性,来判断其上市的利益风险。如果当前已有曾经优效性试验证实的有效药物的话,还常常与其进行比较,并判定待验证药物的疗效至少不差于 (非劣于)已有有效药物作为其上市的最低标准。而等效性试验的应用多见于对同一活性成分的生物等效性以及血浆无法测定时的临床等效验证。
   非劣效性试验通常用于与已上市的有效药物或标准治疗方案进行比较以求能提供一个新的治疗选择,少数情况下当安慰剂对照不被允许或违反伦理时,用以间接证明试验药优于安慰剂。
   我国的研发情况是自主创新药品较少,而仿制国外已上市药品占多数,对于国内尚未上市的药品,无论是创新药还是仿制药,如选安慰剂为对照则应证 实其优效性,如选国内已上市的同一治疗领域的药物作为阳性对照药,则应至少验证其具有非劣效性。与已上市药物相同活性成分的药品应进行生物等效性或临床等 效性验证。

版权声明:
本网站所有注明“来源:梅斯医学”或“来源:MedSci原创”的文字、图片和音视频资料,版权均属于梅斯医学所有。非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:梅斯医学”。其它来源的文章系转载文章,本网所有转载文章系出于传递更多信息之目的,转载内容不代表本站立场。不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。
在此留言
评论区 (0)
#插入话题

相关资讯

非劣效、等效性、优效性相关资料汇集

非劣性等效性试验的样本含量估计及统计推断.pdf 非劣性等效性试验的样本含量估计及把握度分析.pdf 美国FDA非劣效临床试验指南.pdf EMEA发布的非劣效性界值选择的指导原则.doc  盐酸奥洛他定在中国变应性鼻炎人群的非劣效临床研究设计及其定量分析.pdf 临床新药试验中非劣效性检验界值的确定方法.pdf 随机模拟法验证非劣效临床试验样本量计算公式.pdf