消化器癌治療の広場　臨床試験を斬る！　第二段階　実際の報告を例に第II相試験を斬る

最新の無作為化第II相試験

図3

図4

坂本：　最後に、最新の無作為化第II相試験についてディスカッションしていきたいと思います。取り上げるのは、先日のASCO-GI 2013において発表されたPEAK試験とSPIRITT試験です。まず朴先生からPEAK試験について紹介していただきます。

朴：　PEAK試験はKRAS 野生型の切除不能進行・再発大腸癌患者に対する1st-lineにおいて、mFOLFOX6 + PanitumumabとmFOLFOX6 + Bevacizumabとを比較した無作為化第II相試験です。Frontlineに使用するのは、Bevacizumabがいいのか、それとも腫瘍縮小効果の高いPanitumumabがいいのかという、非常にシンプルかつ重要なclinical questionに答える分子標的薬同士の比較試験です。症例数は285例で、患者背景は若干Panitumumab群で高齢者が多いほかはバランスがとれています。結果は主要評価項目のPFS中央値がPanitumumab群10.9ヵ月、Bevacizumab群10.1ヵ月であり、差はみられませんでした (HR=0.87, p=0.35) (図3) ⁵⁾。OS中央値もPanitumumab群未到達、Bevacizumab群25.4ヵ月であり、差は認められていません (HR=0.72, p=0.14) (図4)。

坂本：　ありがとうございました。PEAK試験の結論としては、Panitumumab群、Bevacizumab群で差がみられなかったということが分かったということかと思います。それでは、試験結果の詳細について森田先生に統計学的観点からお伺いしたいと思います。PFSのKaplan-Meier曲線は早期から打ち切り例がみられ、イベント発生率も60%程度ですが、森田先生はどう見ますか。

森田：　もともと試験設定はevent drivenなので、計画通りのイベント数で解析したという点では問題ないかと思います。ただ、発表を見ると、PFSの判定には、最後に腫瘍評価を行った日もしくは無作為化された日から60日を超えて死亡した症例については打ち切りとするという「60日ルール」が採用されているようです。これは他の試験でもみられる手法ですが、早期打ち切り例が増えてしまう傾向があります。例えば初期に腫瘍評価を行い、それ以降に画像撮影を行わないまま死亡した場合、遡って早期打ち切り扱いとなってしまいます。今回はそのようなケースが多かったのではないでしょうか。

坂本：　ポスターには「No formal hypothesis testing was planned in this study」とも記載されています。この一文はどう解釈すればよいのでしょうか。

森田：　おそらく統計家による一文だと思います。統計的検定のコンテキストでの「formal」とは「事前にαレベル (検証試験では5%) を設定し、計算されたものである」ということを意味するので、この一文は「本試験の目的は有意差を出すことではない」という意味だと思います。つまり、あくまで探索的な第II相試験にすぎず、検証的な試験ではないということです。最終的な判断は、第III相試験をもって行うべきだと考えます。

朴：　PFSはcensored caseを無くした、しっかりとしたデータを見ないと判断は難しいでしょう。また、OSに関しては発表が時期尚早だったと思います。イベント発生率が低すぎてimmatureなデータになってしまっているので、長期追跡されたmatureなデータを改めて見てみたいです。いずれにしても、第II相試験の結果にすぎない本試験のPFSやOSの中央値、HRなどの数字がひとり歩きすることを恐れます。

坂本：　PEAK試験が今回のASCO-GIで発表された背景には、ASCO 2013で同様の第III相試験の結果が発表されるという予測があったものと考えられます。朴先生、このあたりの動向について教えていただけますか。

朴：　今年のASCOでは、2つの第III相試験が発表されると言われています。1つは北米を中心としたCALGB/SWOG80405試験で、切除不能進行・再発大腸癌の1st-lineにおいてCetuximab + FOLFOX/FOLFIRIとBevacizumab + FOLFOX/FOLFIRIとを比較した試験です⁶⁾。主要評価項目はOSで症例数も2,900例と、信頼性の高い試験だと思います。
　もう1つはドイツのAIOが実施しているFIRE-3試験で、切除不能進行・再発大腸癌の1st-lineにおいてCetuximab + FOLFIRIとBevacizumab + FOLFIRIとを比較しています⁷⁾。主要評価項目は奏効率で、症例数は336例とあまり多くありませんが、AIOは非常にしっかりとした臨床試験を行うので、結果は重要視できると思っています。FIRE-3試験は既にKRAS 変異型症例の結果がASCO 2011で報告されており、両群で差は認められませんでした⁸⁾。KRAS 野生型ではどのような結果が出るのか非常に楽しみです。

図5

図6

坂本：　それでは、続いてSPIRITT試験についてご解説いただけますか。

朴：　SPIRITT試験は2nd-lineにおけるbeyond BevacizumabとPanitumumabとをhead to headで比較した無作為化第II相試験です。1st-lineでBevacizumab + L-OHPベースの治療歴のある患者182例を対象にPanitumumab + FOLFIRIとBevacizumab + FOLFIRIとを比較しました。患者背景はPanitumumab群で高齢者および転移巣の個数などで悪い傾向にあります。結果は、主要評価項目のPFS中央値はPanitumumab群7.7ヵ月、Bevacizumab群9.2ヵ月 (HR=1.01) (図5) 、OS中央値はそれぞれ18.0ヵ月、21.4ヵ月 (HR=1.06) (図6) と、PEAK試験同様、PFS、OSともに差はみられませんでした⁹⁾。
　SPIRITT試験の結果を見てまず疑問に思ったのは、PFSにおける打ち切り例の多さとイベント発生率の低さです。OSのイベント発生率がPanitumumab群73%、Bevacizumab群75%であるのに対して、PFSのイベント発生率はそれぞれ58%、57%とPFSのイベント発生率の方がOSよりも低かったです。また、PFS中央値も過去の同様の試験から考えると良すぎる印象があります。

森田：　PEAK試験と同様に、早期の打ち切り例が大変多くみられますが、これも60日ルールを採用したためだと考えられます。早期の打ち切りが多くなると、曲線が全体的に上に移動するという特徴があるので、解釈には注意が必要だと思います。

坂本：　このSPIRITT試験は、ASCO 2010で試験デザインが発表になっています¹⁰⁾。そこでは優越性検定と謳っているにもかかわらず、今回の発表ではPEAK試験と同様に「No formal hypothesis testing was planned in this study」と記載されています。ここはどう解釈しますか。

森田：　ASCO 2010のポスターを見ると、「Sample Size」の欄に、「2-sided significance level of 0.2 and power of 80%」とあります。つまりαエラーは0.2に設定しており、有意水準5%で有意差を示すいわゆる検証的な試験としてデザインされていないという認識でよいと思います。

朴：　主要評価項目はOSとするべきだったと思います。クロスオーバーが許されているので、Bevacizumab群はPanitumumabを3rd-lineで使用できます。一方、Bevacizumabの3rd-lineにおけるbenefitは証明されておらず、Panitumumab群の後治療におけるエビデンスはありません。したがって、PFSを主要評価項目とするならばPanitumumab群がBevacizumab群を上回る必要があると思います。

坂本：　朴先生、WJOGでもSPIRITT試験と同様のデザインの試験が進行していますね。

朴：　現在、L-OHPおよびBevacizumabを含む初回治療不応のKRAS 野生型進行・再発大腸癌患者に対するFOLFIRI + PanitumumabとFOLFIRI + Bevacizumabとを比較する無作為化第II相試験のWJOG6210G試験が進行中です。今回のSPIRITT試験の発表を踏まえて議論されましたが、本試験の臨床的意義が再確認され、継続する予定です。