消化器癌治療の広場　臨床試験を斬る！　第一段階　第II相試験と第III相試験の役割を理解する

坂本：　今回は、「第II相試験と第III相試験」をテーマに、臨床家として聖マリアンナ医科大学の朴成和先生、統計家として横浜市立大学の森田智視先生にお越しいただきました。まず初めに、第II相試験の概要について、森田先生からご説明いただけますでしょうか。

森田：　現在の臨床試験は、第I相、第II相、第III相というプロセスを踏んで行われており、徐々に情報を蓄積しながら判断を行う「技術評価のプロセス」となっています。抗癌剤の臨床試験であれば、第I相試験が安全性、第II相試験が有効性の評価が目的となるでしょう。ただし、第II相試験の目的は、最終的な検証ステージである第III相試験でその治療法を評価する価値があるかどうかを評価することにあります。

坂本：　第II相試験と第III相試験では、具体的にどのような違いがありますか。

森田：　例えば評価項目が挙げられます。特に2000年以前であれば、抗癌剤の第II相試験では腫瘍縮小を見る奏効率、第III相試験ではOS (overall survival) が主要評価項目とされてきました。第II相試験には「短期間で候補となる治療薬を選択する」という目的があるため、比較的短い時間で結果が出る奏効率が用いられてきたという背景があると思います。
　ただ、腫瘍縮小がOSと必ずしも相関しないと明らかになってきたこと、劇的な腫瘍縮小というよりも効果的な増殖抑制が最終的に長期のOSにつながると考えられることなどから、近年では第II相試験の主要評価項目にPFS (progression-free survival) が採用されることも多くなってきました。

坂本：　朴先生が2005年ごろまでに手がけられた第II相試験と比べて、現在の第II相試験はどのように変化しましたか。

表1 第II相試験の変遷

朴：　森田先生がおっしゃったように、かつては腫瘍縮小が生存に寄与するという大前提があり、OSの代替評価項目として奏効率が使用されてきました。この時代の第II相試験は大部分が単アーム試験でしたが、PFSを評価項目とする場合は単アームでは患者の選択などのバイアスがかかり、比較することが困難になります。そこで対照群を設定する必要が生じ、近年では無作為化第II相試験が多くなりました。同時に症例数も増え、かつて単アーム第II相試験は50例程度でしたが、最近の無作為化第II相試験では、各群100例程度の規模が多くなっています(表1)。

森田：　症例数は主要評価項目によっても変化しますが、第II相試験では、第III相試験に向けて「価値がある」と感じられる期待値、「価値がない」と思われる閾値を設定して症例数設定を行います。これら期待値と閾値により症例数が大きく変わってきます。

朴：　第II相試験の目的も変わってきています。候補の薬剤が少なかった時代は、第III相試験を実施すること自体が目的となっていました。そのため、患者を選択して良好なデータを出すことが求められた部分もあったと思います。極端に言えば、駄目でなければよかったわけです。しかし、多くの薬剤が揃い標準治療が確立されてきた現在では、第III相試験で標準治療を上回る効果を示す必要が出てきました。したがって、第III相試験で対照群を上回る方法を探索することが、第II相試験の目的になってきています。これまでの第II相試験と比べて、phaseが少し上がったとも言えるでしょう。
　同時に個別化医療も導入されてきたため、免疫染色などを用いた患者の個別化やバイオマーカーのカットオフ値の決定など、評価すべきポイントが増えました。今では、第II相試験は多様な観点を評価するためのツールになりつつあるとも言えると思います。

坂本：　それでは、第II相試験の結果を見る際には、どこに注意すべきでしょうか。

朴：　患者集団に対する選択バイアスや実施施設のバイアスなど、様々なバイアスに注意する必要があります。一流の施設だけで実施して全身状態の良好な患者ばかりを集めた第II相試験の結果は、対象患者を広げた試験を行ったときに、その効果が薄まってしまいます。私が特に注意しているのがOSで、単アーム第II相試験では、試験開始から半年間にわたり1例の死亡も認めないような結果が報告されることがありますが、実臨床においては、患者が半年間１人も亡くならないという状況はほぼありません。この場合、それが患者選択によるバイアスなのか、もしくは薬剤が本当に有効だったためなのかといった、真の理由を探す必要があります。ここが第II相試験を解釈する難しさではないでしょうか。

森田：　私が第II相試験の統計データを解釈する際には、単アーム試験か無作為化試験かを問わず、患者集団の特性に注意を払っています。実際、第III相試験のデザインを考える際に、患者集団の特性は非常に重要なポイントになります。また、第II相試験の結果は、あくまでも第III相試験へ続けるための基礎データであり、最終的な判断を行うためのものではありません。たとえ無作為化試験であったとしても、試験デザインとして効果を検証できる設定になっていないため、第II相試験の結果だけをもって最終判断をするのはとても危険です。ただ、対象症例数が非常に少なく、第III相試験を組むことができないような特殊なケースでは、第II相試験が最終的なデータとなる場合もあり得ると思います。