Points of View 各国の臨床試験申請時のEQ-5Dの組み入れ状況

印刷用PDF

医薬産業政策研究所 主任研究員 三浦佑樹

要旨

臨床試験におけるEQ-5Dの組み入れ割合は、イギリス、日本、ドイツ、フランス、アメリカの順に高かった。アメリカのEQ-5Dの組み入れ割合が低かった要因に、臨床試験の申請総数が多かったphase2におけるEQ-5Dの組み入れが低いことに起因した。

EQ-5Dと他の指標の同時組み入れについて、Phase3以前とPhase4とで比較しても労働生産性関連指標、介護関連指標のいずれも10%程度であった。臨床試験の申請総数と比較すると、労働生産性関連指標は、介護関連指標と比べて高い割合でEQ-5Dの同時組み入れがされていた。

上市後に取得したエビデンスを評価に用いることができるか否かという観点で、Phase4を対象に分析を進めると、各関連指標の大部分はSecondary Outcome Measuresで測定されていた。これらの指標を測定することを主目的としなくても質問票を組み入れることでこれらアウトカムの取得自体のハードルは高くないのではないかと考えられる。

1. はじめに

日本製薬工業協会(以下、製薬協)の製薬協 政策提言2023では、上市後に得られたエビデンスやガイドラインにおける位置づけの変化等に基づき価値を再評価して薬価を見直すなど、上市後の価値評価を薬価に反映する仕組みが必要である1)と主張している。過去に上市後に真の臨床的有用性の検証がされた製品は存在している2)が、これらの製品は、製造販売承認を目的とする臨床試験とは別に心血管イベントの発症リスク減少等が評価され、薬価改定時に加算を受けていた。

昨今の医療資源配分の観点を鑑みると、従来の臨床的有用性に加えて、医療経済的な視点のエビデンスが示されること及びそのエビデンスを評価することは医療資源配分の観点でも有用であると考える。しかしながら、現在の薬価制度で、医療経済的な分析結果を評価する制度は費用対効果評価制度のみである。費用対効果評価制度は、薬価制度を補完する形で、特に財政的な影響の大きい医薬品を対象としているため、限定的な施行にとどまっている。費用対効果評価制度では、分析の際に生じる前提や推計を多く伴って算出されるために不確実性が問題となり、結果にばらつきが生じている。同一の集団でこれらのデータを取得したものの方が分析の際に生じる不確実性を減らすことができるため、アウトカムの同時に組み入れの実態を明らかにすることは重要と考える。

加えて、ISPOR(International Society for Pharmacoeconomics and Outcomes Research) のValue flowerの中にもCore elements of valueとしてQuality-adjusted life years gained、Net costsが挙げられており3)、これら2要素は医薬品の多様な価値の1つの要素となっている。日本でもLecanemabが早期アルツハイマー病当事者様や介護者に健康アウトカムや生活の質(Quality OfLife:QOL)の向上とともに、経済的負担の軽減をもたらす可能性が示された4)と報告されている。直接的なケアコスト(外来・入院サービス、介護・在宅医療サービス、当事者様の薬剤費、その他介入コストなど)に焦点を当てた医療支払者観点ならびに社会的観点(直接的なケアコストに加えて家族介護によるインフォーマル・ケアコストなどを含む社会的コスト)から疾患シミュレーション・モデルを用いて実施4)され、薬価収載時にこれら分析結果がどのような評価を受けるか注目されている。

本稿では、医療経済的な分析に用いられる健康関連QOL(本稿ではEQ-5D)と、ISPORのValueflowerを構成する要素のうち、中野らの先行研究5)にてアウトカム指標が存在する労働生産性、介護負担の軽減の2つに着目し、医療経済的な分析および評価を検討することを想定し、これらアウトカム指標が臨床試験の申請時点でどの程度組み入れられているのか(EQ-5Dとの同時組み入れも含む)、上市前後でのアウトカム指標の組み入れの違いなどの実態を把握することを目的に調査を行った。

2-1. 調査対象

中央社会保険医療協議会における費用対効果評価の分析ガイドライン第3版にて、費用対効果分析を目的に新たに日本国内でQOL値を収集する際、EQ-5D-5Lを第一選択として推奨6)している。そこで本稿では、EQ-5Dをアウトカム指標として組み入れる臨床試験の実態を調査した。

EQ-5Dは、臨床試験、観察研究、集団健康調査、日常的な結果測定、および健康状態の一般的な尺度が有用な多くの種類の研究で使用することができ、EQ-5D指数値は、医療介入の経済的評価における質調整生存年(Quality-adjusted life year:QALY)の推定に使用することができる7)。EQ-5Dの諸外国での位置づけは、英国NICEでは成人の健康関連QOLの評価に推奨される尺度とされ、評価で使用された割合では全体の49%を占めた8)(他にHUI9):13%、SF-6D:1%、疾患特異的QOL評価尺度19%)。疾患特異的QOL評価尺度も多く使われているのが実態ではあるが、今回は疾患ごとの分析を主目的としていないため対象外とした。

また、全ての患者報告アウトカムやQOL尺度での測定値から費用対効果分析で使用されるQOL値が算出できるわけではなく、図1のようにQALYを算出するために開発された選好にもとづく(preference-based)尺度で測定したもののみ6)であることから、本調査では、EQ-5D以外の評価尺度は分析対象外とした。HUI、SF-6DはQALYを算出するために使用することができるが、今回は、費用対効果分析で広く一般的に用いられているEQ-5Dを対象とするため、HUI、SF-6Dは対象外としている。労働生産性、介護負担の軽減の2つについては、次項の調査方法にて記載する。

図1 QOL関連の尺度

2-2. 調査方法

日本及びアメリカ、イギリス、ドイツ、フランスのEQ-5Dの臨床試験の申請時点の組み入れの実態を調査するため、網羅的に各国の臨床試験の状況を把握できる米国の臨床試験データベースであるClinicalTrials.govのデータを用いて集計を行った。データ抽出時の検索条件は下記の通りである。

ClinicalTrials.govの検索条件

  • Stady Phase:Phase2, 3, 4
  • First Posted: 2010.01.01~2022.12.31(以降は、年単位とし、期間で表示)

上記の検索条件で取得したデータのクリーニングを次の通り行った。

「Outcome Measures(以下、Outcome)」のうち、“EQ-5D“、“EQ5D”、“European Quality of”、“EuroQOL”のいずれかのワードが含まれているものを「EQ-5D」を組み入れている試験とみなし、集計対象とした。加えて、分析時に「First Posted」にデータがないものや、申請期間が2010.01.01~2022.12.31以外のものは分析対象から除外し、検索条件中の期間と合致するもののみを対象とした。「Intervention」では、“Drug”、“Biologic” のいずれかのワードが含まれているもの、「Study Phase」では、“Phase1”の単独を除くPhase2~4に該当するもの、「Location」では、アメリカ(UnitedStates)・イギリス(United Kingdom)・ドイツ(Germany)・フランス(France)・日本(Japan)の括弧内のいずれかのワードが含まれているものを集計対象とした。2023年9月20日時点で検索条件にヒットした試験数が94,901件、データクリーニングをした結果、1,420件が分析対象となった。

「Outcome」のうち、労働生産性のアウトカム指標(以降、労働生産性関連指標)は中野らによって調査・検討された10)“WPAI”、“productivity”を検索条件とし、家族の介護指標(以降、介護関連指標)についても同様に中野らによって調査・検討された11)“Caregiver”、“Carer”、“Family”を検索条件としてEQ-5Dとの関連性についても調査を行った。

3. 結果

今回の調査対象を国ごとにどの程度EQ-5Dを臨床試験に組み入れていたかを図2に示す。

図2 各国のEQ-5Dの組み入れ試験数と割合(国間での重複あり)

EQ-5Dの組み入れ試験数を調査期間の2010~2022年の累積でみると、アメリカが875件、イギリスが668件、ドイツが626件、フランスが625件、日本が328件という状況であった(図2)。アメリカが875件と最も多く、ドイツ、フランス、イギリスは625~668件と欧州間では大きな差異は見られなかった。日本は328件と5か国の中で最も少なかった。

国ごとのEQ-5Dの組み入れ割合をクリーニング実施後のデータと、EQ-5Dを除くその他のデータクリーニングは同様の条件で算出した。国ごとにその割合を図2のプロットで見ると、アメリカはEQ-5Dの組み入れ試験数は875件ともっとも多かったが、割合でみると2.5%と最も低かった。同割合を他の国でも見るとイギリスは10.1%、ドイツは8.4%、フランスは7.9%、日本は8.7%となっており、イギリス、日本、ドイツ、フランス、アメリカの順にその割合は高かった。

アメリカのEQ-5Dの組み入れ試験割合が低かった要因を確認する目的で、Phase別のEQ-5Dの組み入れ試験数の割合と申請試験数を確認した(図3)。棒グラフは、当該期間におけるEQ-5Dを組み入れていないアメリカの試験数を示し、プロットはアメリカにてEQ-5Dを組み入れた試験の割合を示している。Phase2は、申請件数が多いこともあり、試験数の割合が1.6%と他のPhaseと比較して低かった。その一方で、Phase3は、試験数の割合が6.3%と他のPhaseと比較して高かった。今回は、サンプルを確保するためにこれらを合算したが、Phase3のみとその他で異なる傾向を示すかを図4で確認した。

図3 アメリカのPhase別EQ-5Dの組み入れ試験数の割合と申請試験数
図4 各国のPhase3におけるEQ-5Dの組み入れ試験数の割合と各国のEQ-5Dの組み入れ試験数の割合

図4より、各国のPhase3による違いがあるかを確認した。他の国と比べてPhase3でもアメリカは6.3%と低かった。Phase3のEQ-5Dの組み入れ試験の割合と図2の同割合との差をみると、アメリカのみが大きく離れていることがわかり、これは母数の大きいPhase2の割合が低いことに起因する。

図5 モダリティ(Drug、Biologic)別のEQ-5D組み入れ試験数
図6 臨床試験のPhase別EQ-5D・労働生産性関連指標・介護関連指標の臨床試験の組み入れ試験数

以降の分析ではサンプルの問題があるため、図2の5か国を合算して分析を行った。次に調査対象となる臨床試験が、DrugまたはBiologicのいずれに該当するか分析した。

DrugとBiologicの2つを異なるモダリティとしたとき、Drugはいわゆる低分子系の医薬品、Biologicは高分子系の医薬品であることを確認した。これらのうち、Drugは1,257件、Biologicは、170件の試験数であり、Drugが大部分を占めていたことがわかった。EQ-5Dの組み入れをしていないデータでの構成比(EQ-5Dを除くその他のデータクリーニングは同様の条件)を見ると、Drugが87%、Biologicが13%であった(補足資料1)。これは、EQ-5Dの組み入れ有のDrugが88%、Biologicが12%と比べて差異が非常に小さいことから、DrugとBiologic間にEQ-5Dの取得傾向に違いはないことがわかった。なお、同一の試験においてDrugとBiologicの両方が該当するケースも存在し、これらの重なりは存在する。

次いで、EQ-5Dおよび労働生産性関連指標、介護関連指標が製品の上市前後の臨床試験でどの程度組み入れられているのかを調査するため、5か国で各指標が組み入れられているものを対象(EQ-5Dを除くその他のデータクリーニングは同様の条件)として臨床試験のPhase別で分析を行った。

EQ-5Dのクリーニング前後(EQ-5Dを除くその他のデータクリーニングは同様の条件)のデータから臨床試験のPhase3以前(Phase1単独を除く)またはPhase4の2群に分けて“EQ-5D”、“労働生産性関連指標”、“介護関連指標”の3指標の全体数を俯瞰する。Phase3以前とPhase4を比較すると、いずれの指標もPhase3以前の絶対数が多かった。“EQ-5D”の組み入れは、Phase3以前が1,272件、Phase4が148件と、分析対象の大多数がPhase3以前に組み入れられていた(Phase3以前のEQ-5Dの割合:89.6%)。Phase3以前、Phase4のいずれにおいても3指標のうち、EQ-5Dの組み入れ数がもっとも多かった。“労働生産性関連指標”の組み入れは、Phase3以前が170件、Phase4で66件とPhase3以前の試験数は他の指標と比べると少なかった。“介護関連指標”はPhase3以前で945件、Phase4で121件であった。

次にEQ-5Dを組み入れている試験に介護関連指標、労働生産性関連指標がどれくらい同時に組み入れられているかを分析した。

図7 臨床試験のPhase別EQ-5Dと同時に組み入れられた労働生産性関連指標・介護関連指標の試験数
図8 臨床試験のPhase別 労働生産性関連指標・介護関連指標総数のうちEQ-5D同時試験の組み入れ割合

図7では、図3のEQ-5Dが組み入れられている臨床試験のうち、“労働生産性関連指標”、“介護関連指標”の同時組み入れ試験数を抽出し、EQ-5Dを100としたときの各関連指標の割合を示した。Phase3以前では、労働生産性関連指標は82件(6.4%)、介護関連指標は、129件(10.1%)であった。Phase4では、労働生産性関連指標は15件(10.1%)、介護関連指標は、13件(8.8%)であった。サンプルが少ないことから統計的解析は行っていないが、Phase3以前は、労働生産性関連指標の組み入れ割合(6.4%)よりも介護関連指標の組み入れ割合(10.1%)が高い傾向にあった。Phase4では、労働生産性関連指標の組み入れ割合(10.1%)よりも介護関連指標の組み入れ割合(8.8%)が低い傾向にあり、Phase3以前とは傾向が異なった。Phase3以前とPhase4の各関連指標の同時組み入れ割合を比較すると、Phase毎での割合には大きな差異は見られなかったが、Phase3以前では、労働生産性関連指標よりも介護関連指標の組み入れ割合が高く、Phase4ではわずかながら労働生産性関連指標よりも介護関連指標の組み入れ割合が低い傾向にあった点で違いが見られた。

図6にある労働生産性関連指標と介護関連指標総数のうち、EQ-5Dと同時に組み込まれている割合を図8に示した。Phase3以前では、“労働生産性関連指標”では48.2%(82件/170件)と約半数であり、Phase4では22.7%(15件/66件)でPhase4の方が同時に測定している割合が低かった。“介護関連指標”では、Phase3以前で13.7%(129件/945件)、Phase4では10.7%(13件/121件)といずれも労働生産性関連指標と比べると同時組み入れの割合が低かった(図8)。

上市後のエビデンスという観点から、Phase4に着目し、EQ-5Dと同時組み入れされたものが臨床試験のどのエンドポイントに分類されるか位置づけを調査し、これが組み入れの課題となりうるか確認した。

図9 Phase4で組み入れられていた各関連指標とエンドポイントの位置づけ
図10 Phase4におけるモダリティ(Drug、Biologic)別の各関連指標の組み入れ試験数

図9では、Phase4で組み入れられた各関連指標が、OutcomeのうちPrimary Outcome MeasuresかSecondary Outcome Measuresのいずれに位置づけられていたか確認した。なお、Primary Outcome Measures、Secondary Outcome Measuresに該当しないものは集計から除いている。図9より、“EQ-5D”、“労働生産性関連指標”、“介護関連指標”のいずれもSecondary Outcome Measuresに大多数が位置づけられており、追加的な臨床試験の中で副次的にこれらが組み入れられていることが分かった。

図10では、Phase4におけるモダリティ(Drug、Biologic)別の各関連指標の組み入れ試験数を分析した。DrugおよびBiologicの総数は、図5で示した通りであるが、図10でも試験数を確認した。図5と同じく、BiologicよりもDrugが大多数を占め、その傾向に違いは見られなかった。

上市後に取得したエビデンスといった観点から図8のうち、Phase4で組み入れられたアウトカム指標である“労働生産性関連指標”、“介護関連指標”がどのような疾患を対象としたものかを分析した結果を表1に示す。Phase4を対象とした図10のうち、労働生産性関連指標と介護関連指標のいずれかがEQ-5Dと同時に組み入れのあったものを対象とした。なお、疾患情報がないものは該当なしとしている。

表1  Phase4で“労働生産性関連指標”または“介護関連指標”を組み入れていた対象疾患一覧

表1より、多発性硬化症が4件、乾癬が3件、関節リウマチ、酒さ、片頭痛がそれぞれ2件、以降はそれぞれ“労働生産性関連指標”あるいは“介護関連指標”のいずれかに1件という状況であった。

最も多かった多発性硬化症は、中枢神経系の慢性炎症性脱髄疾患であり、日本では指定難病となっている。主たる症状は、視力障害、複視、小脳失調、四肢の麻痺(単麻痺、対麻痺、片麻痺)、感覚障害、膀胱直腸障害、歩行障害、有痛性強直性痙攣等であり、病変部位によって異なる12)との報告がある。多発性硬化症の健康関連QOLを測定するFAMS(Functional Assessment of MultipleSclerosis)13)というものも存在するが、今回の事例では同時に組み入れられていなかった。

4. まとめ・考察

本稿では、医療経済的な分析に用いられる健康関連QOL(本稿ではEQ-5D)と、ISPORのValueflowerを構成する要素のうち、中野らの先行研究にてアウトカム指標が存在する労働生産性、介護負担の軽減の2つに着目し、これらアウトカム指標が臨床試験の申請時点で、どの程度組み入れられているのか、上市前後でのアウトカム指標の組み入れの違いなどの実態を把握することを目的に調査を行った。

結果、EQ-5Dの組み入れ試験数では、アメリカが最も多く、欧州三か国のイギリス・ドイツ・フランス、次いで日本であった。EQ-5Dの組み入れ割合に着目すると、イギリス、日本、ドイツ、フランス、アメリカの順にその割合は高かった。アメリカは、Phase2の臨床試験申請数が15,528件と多く、EQ-5Dの組み入れ割合は1.6%と低かったことに起因すると考えた。その他の国は、国際共同治験等で同時組み入れの試験が多かったのではないかと推察し、国間での重なりがあり、アメリカを除く国での組み入れ割合の差異が小さくなったと考えた。また、EQ-5Dに限ったことで言えば、イギリスはHTA(Health Technology Assessment;医療技術評価)の結果を償還可否の意思決定に用いていることから日本、ドイツ、フランスと比べて組み込み割合が高かったのでないかと推測される。Phase3以前とPhase4をHTAの結果を償還可否の意思決定に用いている国々とそうでない国々での分析をすることでこれら要因が分析できるが、今回は重複された臨床試験が多かったこともあり、これらを検証するには至らなかった。加えて、調査対象としたClinicalTrials.govは、米国のDBであるため、日本を含む諸外国で実施・実施中の臨床試験すべての情報が含まれているわけではないことから、米国以外で実施された臨床試験は過小評価されている可能性がある14)点は留意しなければならない。今回の調査では網羅できていないが、日本の臨床試験自体の評価を行う場合は、日本国内での治験・臨床研究の情報を臨床研究情報ポータルサイト15)やUMIN(大学病院医療情報ネットワーク)16)、JAPIC(日本医薬情報センター)17)等の情報と比較して考察する余地がある。

大枠でのモダリティについて、調査前の仮説では、Biologicの方がこれらアウトカムを多く臨床試験に組み入れていると考えていたが、差はみられなかった。今回、医療経済的な観点で、費用対効果分析を行う際のUtilityを算出するEQ-5Dを調査対象としたが、分析に用いるQOL値は、すべて臨床試験に組み込まなければいけないわけではなく、先行論文やデータベース18)などから取得することも可能であり、全ての医薬品が新たに臨床試験に組み入れる必要はなかったため、限定的になっている可能性がある。加えて、今回は疾患特異的QOL評価尺度の調査は行っておらず、EQ-5DでQOL値を測定していない事例を考慮するとQOL評価尺度自体のトレンドも含めた調査が必要であると考える。

EQ-5Dの臨床試験同時組み入れについて、Phase3以前では、労働生産性関連指標は82件(6.4%)、介護関連指標は、129件(10.1%)であった。Phase4では、労働生産性関連指標は15件(10.1%)、介護関連指標は、13件(8.8%)であり、いずれも10%程度であった。

EQ-5Dを同時組み入れした試験数をEQ-5Dを組み入れていない試験数で割った値(図8)をみると、労働生産性関連指標は、介護関連指標と比べて比較的高い割合で同時組み入れがされていたが、介護関連指標は10%程度と低い傾向にあった。今回の調査で、EQ-5D以外の例えば疾患特異的QOL評価尺度との併用によるものか、集計対象による影響なのか判断することはできないが、医療経済分析の視点で同一の集団でこれらのデータを取得したものの方が分析の際に生じる不確実性を減らすことができるため、同時に組み入れをしない(測定しない)要因の更なる分析が必要であると考える。

上市後に取得したエビデンスを評価に用いることができるか否かという観点で、Phase4を対象に分析を進めると、各関連指標の大部分はSecondary Outcome Measuresで測定されていた。これらの指標を測定することを主目的としなくても質問票を組み入れることでこれらアウトカムの取得自体のハードルは高くないのではないか。今回の調査で、これら同時測定が十分にされているのか、あるいは改善の余地があるのかを検討するだけの分析には至らなかったが、介護関連指標と労働生産性指標には組み入れているものもあれば組み入れていないものもあり、これらを組み込まない要因の更なる分析が必要だと考えた。その一方で、QOLや各指標の測定や改善に馴染まない疾患や治療薬が存在することを念頭に置かなければならない。

Phase4に各指標が組み入れられていた疾患を分析すると、多発性硬化症や乾癬、関節リウマチ、片頭痛のように患者自身が機能障害や自覚症状をとらえやすいような疾患が多かった。こういった疾患はアウトカム指標が存在する、または取得したQOL値に違いが見られやすいこともあり、組み入れが比較的しやすいのではないかと考えられる。同時に複数のアウトカム指標を同じ集団を対象にデータ取得することが可能となれば、医療経済分析の不確実性を減少させる可能性を有し、より確からしい分析が行われるものと考える。更にこれら事例が集積することで、評価の是非についてより解像度の高い議論が進むのではないか。

その一方で、測定に馴染まない疾患や治療薬があることを踏まえると、今後どのように評価に含めていくのか、医療資源配分の観点も含めて更なる議論が必要になると考えた。

補足資料1 「EQ-5D」の組み入れ有無によるモダリティ(Drug、Biologic)の構成比

このページをシェア

TOP