消化器癌治療の広場
臨床試験を斬る! 第4回 非劣性試験
第一段階 第二段階 結論 実践

第一段階 非劣性試験について理解する

非劣性試験の概要

坂本先生 坂本:今回は臨床家として防衛医科大学校病院の市川度先生、統計家として国立がん研究センターの山中竹春先生にお越しいただき、「非劣性試験」をテーマに議論を進めたいと思います。まず山中先生から非劣性試験の概要についてご説明いただきます。

山中:一般に、無作為化試験の対照群には、プラセボ群、無治療群、異なる用量群、実薬治療群などが設定されます。非劣性試験では実薬治療が対照群となります。旧厚生省による旧統計ガイドライン (1992年) が発行される以前は、被験薬と実対照薬の間に有意差が認められないこと (not significant) をもって同等とみなす“NS同等”が蔓延していました。しかし、一群あたり数例の比較であれば、症例数不足により常に差がつかない (NSになる) ことからもわかるようにNS同等の考え方は問題をはらんでおり、NS同等により承認された薬剤が後にプラセボに対して差を示せなかった事例が起こるなどの問題も生じました。その後は1998年にICH-E9「臨床試験のための統計的原則」、2000年にICH-E10「臨床試験における対照群の選択とそれに関連する諸問題」が発効され、2005年のEMA1)、2010年のFDA2)によるガイダンス策定を経て、今日では非劣性試験に関する基本的な方法論は固まっていると思います。

 一般に、非劣性試験は、被験薬が実対照薬に比べて非劣性マージン以上に劣ることはないことを示す試験と考えられています。非劣性マージンとは「実対照薬よりも劣る幅として臨床的に許容される最大のレベル」のことです。これに対して、優越性試験は、被験薬が実対照薬よりも上であることを示す試験です。言い換えれば、実対照薬に比べてハザード比1.0以上に劣ることはないことを示す試験で、優越性試験ではハザード比の信頼区間の上限が1.0を下回っていれば統計的有意と結論します。
 一方、非劣性試験ではハザード比の信頼区間の上限が非劣性マージンを下回っていれば統計的有意と結論します (図1)。非劣性マージン分の下駄を履かせた優越性試験が非劣性試験であるという見方もできるでしょう。これらのことから分かるように、統計解析上は優越性試験と非劣性試験の間に大きな考え方の違いはありません。しかし、優越性試験は結果の解釈が容易ですが、非劣性試験は結果の解釈が困難になる場合があります。その要因となるのが、いわゆる分析感度と非劣性マージンの設定です。

分析感度、非劣性マージンの設定

山中:分析感度とは、簡単に言えば、有効な治療と無効な治療を区別する力のことです。質の悪い試験では分析感度は低下し、差は薄まります。極端な例を挙げれば、両群の服薬率がともに0%であった場合、群間差はなくなり、Kaplan-Meier曲線は重なります。この場合、優越性試験であれば差を示せなくなるので不利な方向 (帰無仮説寄り) へのバイアスになるのですが、非劣性試験では差が薄まることは有利な方向 (対立仮説寄り) へのバイアスになってしまいます。つまり、被験薬は実対照薬よりも意味のある差を超えて劣っていたとしても、試験の質が悪いがために、その差をきちんと区別することができず (分析感度がない)、誤って非劣性であることが証明されてしまうという事態が発生します。非劣性試験では分析感度が特に重要であると言えます。
 さらに、非劣性試験では、非劣性マージンの設定が大切です。たとえば、切除不能進行・再発大腸癌に対する1st-lineにおいて、mFOLFOX6 + Bevacizumab (mFOLFOX6群) を対照群として、S-1 + L-OHP (SOX) + Bevacizumab (SOX群) の非劣性を検討したSOFT試験では、mFOLFOX6群のPFS中央値を10ヵ月と設定し、SOX群のPFS中央値が7.5ヵ月まで劣ることを許容しています3)。ハザード比に変換すると10/7.5=1.33で、この1.33が非劣性マージンとして設定されています。結腸癌に対する術後補助化学療法としてFOLFOX/XELOXの3ヵ月投与と6ヵ月投与を比較するIDEA研究では、非劣性マージンとして1.10を設定しています。非劣性マージンが1.00に近いことから必要症例数が非常に多くなり、複数国の試験をプロスペクティブに統合する国際研究として、現在計1万例以上の集積が進められています。

仮想プラセボという考え方

山中: 非劣性試験の目的には、「被験薬が実対照薬に比べてあまり劣っていないことの検証」のほか、「仮想プラセボに対する有効性の検証」の2通りがあります。後者の仮想プラセボ(putative placebo)の発想は、FDAガイダンスの中では顕著です。これは、被験薬と実対照薬を比較する非劣性試験のなかで、被験薬がプラセボに対して劣っていないことを保証し、被験薬の最低限の有効性を担保しようという考え方です。
 過去に行われた実対照薬 vs. プラセボの優越性試験の差をM1としましょう。今考えている非劣性試験で、被験薬が実対照薬に比べてM1を超えて劣っていないことが示されれば、被験薬はプラセボよりも上であると間接的に言ってよいことになります。たとえば、過去のデータにより実対照薬とプラセボとの差がハザード比0.75であった場合、実対照薬からみたプラセボのハザード比M1は1/0.75=1.33になります。もし被験薬が実対照薬と比較してハザード比が1.33を超えて劣っているようであれば、被験薬はプラセボよりも劣っていることになります。 (図2ア)。一方、1.33を超えて劣っていなければ、被験薬はプラセボより上であると結論できます (図2イ)。ただし、M1を超えて劣っていないというだけでは、被験薬が臨床的に意味のある効果を有するとは言えない場合もあるため、「M1の何割が維持されていれば被験薬が受け入れ可能か」という臨床的判断を反映する値としてM2を設定することが一般的です (たとえば、M1の50%をM2と設定)。M2を超えて劣っていなければ、実対照薬に対する非劣性が示されたと言えます (図2ウ)。このように仮想プラセボの考え方を取り入れた非劣性試験では、2種類の非劣性マージンM1、M2を設定します。

固定マージン法と統合法

山中先生 山中:仮想プラセボの考え方を取り入れた非劣性試験を紹介しましょう。FOLFOX/XELOXに対するBevacizumabの上乗せ効果を検討したNO16966試験では、2×2デザインとして、FOLFOXに対するXELOXの非劣性も同時に検討しています。FOLFOXが5-FU/LVに対して示した差 (M1) の50%以上が維持されるかどうかを検討するため、1.23という固定マージン (M2=1.23) を設定し、1.23を超えて劣らないことを示すことが目的でした4)
 FDAガイダンスではこのような固定マージン法 (fixed margin method) 以外に、別の解析方法も提示されています。過去のデータから求められるM1の値は信頼区間分のばらつき、不確かさを伴っていると考えられます。そこでM1やM2の信頼区間も考慮したうえで、非劣性比較をするのが統合法 (synthesis method) です。M1を算出する根拠となった過去のデータと、目の前の非劣性試験のデータを統合するので、“統合法”と呼ばれます。統合法では固定値の非劣性マージンを設定することはできません。直観的には固定マージン法の方が分かりやすいのですが、統合法の方が効率的で、より少ない症例数で非劣性を検証することができます。

解析集団について

山中: 優越性試験ではITT (intention-to-treat) またはFAS (full analysis set) を解析集団とすることが一般的ですが、非劣性試験では必ずしもITT (FAS) での解析が適しているわけではありません。差が薄まると非劣性を示しやすくなってしまうので、一般に差が薄まる方向のITT (FAS) での解析は注意を要します。非劣性試験においてはプロトコールに適合した解析集団PPS (per protocol set) での解析も重要になります。
 ただし、ITT (FAS) とPPSの結果に乖離が見られた場合は、両集団が大きく異なっていることになり、そもそも試験の質に疑念が生じます。分析感度が問題になる可能性があり、得られた結果には不確かさが伴います。したがって私見では、どちらが主たる解析集団であっても、いずれの集団でも非劣性を示す必要があると思います。


坂本:解説ありがとうございました。それでは、非劣性試験に対していくつか質問させてください。まず、非劣性試験と同等性試験はどのように区別して考えればよろしいでしょうか。

山中:同等性試験は2つの治療法が臨床的に意味を持つほど異ならないことを示すのが目的なので、下側のマージン (-Δ) だけでなく、上側のマージン (+Δ) の設定が必要です。ジェネリック医薬品の生物学的同等性試験はそのようなデザインです。一方、非劣性試験では下側のマージン (-Δ) のみを設定します。したがって、場合によっては、-Δ以上の非劣性が証明されるだけでなく、+Δも超えた優越性が示されることもあり得ます。

市川:癌領域では、非劣性試験でありながら、非劣性が証明されれば引き続いて優越性の検証を行う試験が増えている印象がありますが、統計的にはどう考えられるのでしょうか。

山中:そのような実例として、膵癌の術後化学療法でGemcitabineとS-1を比較したJASPAC-01試験が挙げられます。主要評価項目であるOSのハザード比は0.56 (99.8% CI: 0.36-0.87) で、S-1群のGemcitabine群に対する非劣性 (p<0.0001) のみならず、優越性 (p<0.0001) も認められました5)。非劣性試験において、非劣性が認められた後に優越性の検定を行う手順については、試験全体のαエラーは5%に抑えられており、統計的には問題ありません。

坂本:臨床試験は、ある仮説を検証することが目的なので、非劣性仮説を検証する試験から優越性まで主張してしまうのはエビデンスとしてはどのように考えればよろしいでしょうか。

山中:観察される群間差にもよるように思います。JASPAC-01試験のように大きな差が認められれば、一般臨床での受け入れは可能と思います。一方、症例数の多い試験であれば僅かな差であっても非劣性に引き続いて優越性が証明されてしまうことはあり得ますが、そのような場合は、優越性を臨床的に受け入れるために他試験による再現性が必要になるかもしれません。

坂本:ある非劣性試験において、標準薬Aに対して薬剤Bが非劣性を認めた場合、さらにBを実対照薬として、薬剤Cの非劣性試験を行うことについてはどうお考えでしょうか。

山中:効果が僅かに劣っている新薬を非劣性であると判断し、かつそのような非劣性試験を積み重ねていくと、ある段階でプラセボよりも劣った治療を“非劣性”と判断してしまう現象のことをbio-creepと呼びますが、その点についてのご指摘かと思います。薬剤Cがプラセボよりも劣っていないことの保証が必要なので、プラセボとの差であるM1の設定が重要になると思います。

坂本:M1を設定する場合は、実薬対照 vs. プラセボのハザード比の点推定値が0.8だったら1.25を、0.75だったら1.33を採用するということですね。

山中:ハザード比の信頼区間を考慮する場合もありますが、基本的にはそのイメージだと思います。

坂本:M1の設定については、主に過去の臨床試験の結果から導かれますが、M2の設定に関しては曖昧な印象を受けます。

山中: おっしゃる通りで、M2を設定する際には、M1の何%を維持しているべきかを表す維持率 (retention rate) の値を決める必要があり、維持率の決定には曖昧な要素が入ります。固定値の非劣性マージンを設定する場合と同じ類いの曖昧さだと思います。優越性試験の結果は客観的に解釈が可能ですが、非劣性試験の解釈には、分析感度の存在を仮定したり、非劣性マージンや維持率を設定したり、常に何らかの仮定や主観的要素が入り込みます。優越性試験と非劣性試験の最大の違いはこの点です。

市川: 非劣性試験の固定マージンには1.25や1.33が多くみられますが、統計的にどう考えればいいでしょうか。

山中:固定マージンの設定には、仮想プラセボの状況ではM1やM2を念頭におく必要があります。しかし、SOFT試験のような薬剤の市販後臨床試験や、薬剤以外の医療技術 (手術術式、放射線など) の比較試験などでは、仮想プラセボやM1のことはあまり明示的に考慮しないことがあります。実対照との比較のみを念頭において、たとえばMSTが○ヵ月から△ヵ月まで落ちることを許容するといった根拠に基づいて、固定マージン1.25や1.33を設定することもあり得ると思います。先に申し上げたように、非劣性試験の目的には、2通りあります。どのような目的にするかは、各々の医療技術が抱えている臨床開発の状況にも依存します。

次へ
臨床試験を斬る! トップへ
▲ このページのトップへ
MEDICAL SCIENCE PUBLICATIONS, Inc
Copyright © MEDICAL SCIENCE PUBLICATIONS, Inc. All Rights Reserved