個体差とRCT

個体差が大きいと、RCTで評価できないというような、奇怪な主張をしている方々がいる。たぶん、この人たちは介入の無作為化の意味を理解していない。また、二重盲検法がRCTの最重要ポイントだと思っている人けっこういて、これはちょっと違う。肝は介入の無作為化である。

たとえば、あるクリニックにやってきた、インフルエンザと診断された人たちを無作為に2つの集団にわけ、両方ともタミフルで治療したとしよう。すると、無作為に振り分けているため、それぞれの集団におけるインフルエンザが治るまでの日数の平均値の期待値は、両集団で等しくなる(集団を振り分けなかった場合の平均値の期待値に等しい)。

個体のレスポンスの差がとても大きいと、平均値の期待値が等しくならない、などということはない。そもそも、無作為化の最大の動機は、個体差がどれだけあろうが、集団を無作為に分けたなら、平均値の期待値が等しい複数の集団が構成できることにある(帰無仮説成立の保証)。一般的には、無作為化によって平均的に条件(交絡因子とか)が均一な複数の集団を作ることができる、と説明されるが、そのココロは同じである。代替医療屋さんが好きな、自己治癒力や自然治癒力なども、集団を無作為に分けることで、平均的に均一な複数の集団を作ることができる。
別の説明(本質は同じ)を試みると、無作為化によって個体差を確率変数と化すことができ、集団間の個体差の分布を平均的に同じにし、集団間の個体差の差を確率的に扱えるようにすることができる。たとえば、インフルエンザが治るまでの期間は、個人の「自己治癒力」によって異なり、また、その時々の生活環境の影響も受ける。細かく見ていけば、体温計の誤差や、治ったとする判断の誤差などがさらに加わってくるが、体温計や判断基準が集団間で同じになるように調整されていれば、これらの誤差は、期待値0のランダム誤差とみなすことができる。よって、無作為に2つの集団にわけて、タミフルで治療してインフルエンザが治るまでの期間を観測することは、無限個の重さの異なる物体(石ころなど)が入っている仮想的な箱から物体を取り出し、無作為に2つの集団に分けたのち、その重さを同じ測定器で測る、という場合と同じ確率モデルで扱うことができる。物体ごとの重さの差が個人差に相当するが、無作為化されているため、それは集団平均の差の期待値が0であるような確率変数となる。
もし、治癒までの日数の代わりに、一定期間における治癒率を観測するならば、それは、様々に歪んだ無限個のコインが入った仮想的な箱からコインを取り出し、それを無作為に2つの集団に分け、それぞれのコインをとって一回だけでたらめに投げて、表が出たか、裏が出たかを観測する、という確率モデルで記述できる。


さて、無作為に2つに分けた集団の一方の群をタミフルで治療し、もう一方の群をプラセボで治療したとしよう。もし、インフルエンザが治るまでの日数の平均値の期待値が異なったならば、それは、治療法の違いが原因か、または、治療法を知っていることによる、患者または医師の認知バイアスが原因である。もし、そのようなバイアスが生じないようにデザインされていれば、治療法の違いが原因である。タミフル群の期待値が小さい(早い)ならば、タミフルプラセボよりインフルエンザを早く治す、つまり効く、という結論が導かれる。
残念ながら、期待値を求めることはできないので、統計的仮説検定で期待値が異なるかどうかの判断をする。あくまで判断なので、誤ることを許容しているし、期待値が異なると判断できなかったことは、期待値が等しいことを意味しない。

個体差があるからRCTは不向きという主張を、この枠組みで言いかえると、統合医療プラセボ医療より効くが、集団の平均値の期待値の差に反映されないということはあるのか? となるだろうか。

個体にまで話を戻すので、各集団のサイズを3として考える(つまり3人ね)。もし、両群ともに、プラセボで治療したなら、まず、

群1のプラセボ効果の平均値=
(患者Aのプラセボ効果+患者Bのプラセボ効果+患者Cのプラセボ効果)/3

群2のプラセボ効果の平均値=
(患者Dのプラセボ効果+患者Eのプラセボ効果+患者Fのプラセボ効果)/3

として、無作為化されていれば

群1のプラセボ効果の平均値の期待値=群2のプラセボ効果の平均値の期待値

が成立する、そこで、群1をプラセボではなく、統合医療で治療したとすると、

群1の統合医療効果の平均値=
(患者Aの統合医療効果+患者Bの統合医療効果+患者Cの統合医療効果)/3

となる、この期待値が、プラセボで治療した群2の効果の平均値の期待値と等しいということは、つまり

(患者Aの統合医療効果+患者Bの統合医療効果+患者Cの統合医療効果)/3

の期待値が

(患者Aのプラセボ効果+患者Bのプラセボ効果+患者Cのプラセボ効果)/3

の期待値と等しいことを意味する(実際には一方しか観測できないが)。
もしこうなるのというのなら、「統合医療プラセボ医療より効く」の定義から尋ねなければならなくなる(それって、ランダム誤差じゃね?という突っ込みが待っているが)

統合医療が効く人は一部なので、平均すると効果が見出しにくい、というならば話はわかる。たとえばCさんしか効果が出ないとすると、

患者Aの統合医療効果=患者Aのプラセボ効果
患者Bの統合医療効果=患者Bのプラセボ効果
患者Cの統合医療効果=患者Cのプラセボ効果

となって、平均値をとると、プラセボ医療との差はα/3と「薄まる」。しかし、Cさんだけ効果が高めに出るので、個体差のバラツキは、プラセボ医療に比して大きくなるだろう。もし、平均はあまり変わらないが、統合医療群の効果は、プラセボ医療群よりも右(効果の高いほう)にも分布しているならば、Cさんのような人の存在が示唆される。一部の人だけが効くような場合は、混合分布となるが、統合医療側が、効く患者を特定するのに役に立つような診断ができるのであれば、その診断の情報からデータを探索的に解析して、分布の右にある、統合医療が奏功している患者の特徴をつかむことが可能だ。

集団平均で評価することの古くからの批判は

患者Aの統合医療効果=患者Aのプラセボ効果
患者Bの統合医療効果=患者Bのプラセボ効果
患者Cの統合医療効果=患者Cのプラセボ効果

患者Aの標準医療効果=患者Aのプラセボ効果
患者Bの標準医療効果=患者Bのプラセボ効果
患者Cの標準医療効果=患者Cのプラセボ効果

というような場合、平均で評価したなら、標準医療が勝つが、Aさんのようなケースが切り捨てられる、というものだと理解している。これは、新治療と既存治療の比較において、でもさあ、みたいに蒸し返される批判であるのだが、肝心のAさんを特定する方法はない。ただ、測定不可能なAさんの特徴がαを生み出すのではなく、生活習慣や家族歴(遺伝子とかも)、性別や年齢、疾患のサブタイプといった、測定可能な特徴がαを生み出すのであれば、統計解析の工夫でAさんを拾い上げることができる。

西洋医学での一例をあげると、抗がん剤のアリムタが非小細胞肺癌の治療において興味深い情報を提供している。アリムタは、最初に悪性胸膜中皮腫アスベストによるがんの典型)で延命効果が期待できる唯一の抗がん剤として登場し、その後非小細胞肺癌の適応も追加された。個人的には、チョウの鱗粉から発見された物質が由来ということで、とても興味のある抗がん剤である。
さて、添付文書

http://www.haiganchiryo.info/image/alimta2009.6.pdf

によれば、海外で実施された効果を裏付ける臨床試験

アリムタ単独 v.s. ドキタキセル単独

アリムタ+シスプラチン v.s. ゲムシタビン+シスプラチン

の2つのRCTであり、2つ目の試験では生存期間がほぼ同等(いわゆる非劣性)であることが統計的に示されている。つまり、全体では差はない。しかしながら、組織型別の解析では、扁平上皮癌以外ではアリムタのほうが効くが、扁平上皮癌では既存薬のほうが効くことが強く示唆され、インタビューフォーム

http://www.info.pmda.go.jp/go/interview/1/530471_4229401D1020_1_01F_1F

には

「非小細胞肺癌を対象とした外国第III相試験1) 2) において、組織型によって試験群と対照群とで生存期間に差異が認められる傾向があり、扁平上皮癌では他の組織型に比して本薬の効果が減少することが示されている2) 61)。本剤を使用する際は、組織型ごと及び化学療法既治療例での臨床試験成績を十分理解した上で、治療の選択を行うこと。」

と記載されている。さらに調べてみると、

“Prognostic and predictive factors in a randomized phaseIII trial comparing cisplatin–pemetrexed versus cisplatin–gemcitabine in advanced non-small-cell lung Cancer”

http://annonc.oxfordjournals.org/content/21/3/556.full.pdf

という論文が見つかり、非常に詳細な”predictive factors”の解析が実施されている。
実は、かつて、こういう解析は、うまくいかなかった試験(全体では対照薬と差が出なかった)に対して、事後的にさかんに実施されていた。目的は、効果を主張できる部分集団を発見することだが、探索的な解析で得られた知見では、第一種の過誤が制御できないため、現在、そのような解析で効果を主張することは、規制側が受け入れていない(はずである)。アリムタの場合は、対照治療との非劣性が証明されており、その上での使い分けの情報を提供しているのである。なお、アリムタは、添付文書にあるように、副作用軽減のために葉酸及びビタミンB12の投与が必須であるが、それによって、既存の(細胞毒性のある)抗がん剤に比べて、かなり副作用が少なくなっており、それを根拠に海外で早期承認されたと記憶している(承認の主要な根拠になったのは、先に示した一つ目の試験のはずだが、非劣性は証明されていない・・・このあたり、詳しく調べていないので間違っているかもしれないが)。

統合医療側の主張の中に、西洋医学では全体の平均だけでしか評価できない、というのを見かけるが、それは誤った理解であり、もし、一部だが確かに効く患者が存在するならば、その患者の特徴をつかむことは可能である。

最後に、実はRCTには限界がある。というのは、無作為化されている集団達の出所は、母集団から無作為抽出された標本ではないからだ。集団の出所は、研究に参加している医療施設の患者達であり、全患者から無作為に選ばれるわけではない。つまり、RCTの結果を全患者に一般化するのには、待ったがかかるのだ。
もし、複数のRCTで一貫した結果が得られたならば、集団の偏りを超えて、効果の差が一般化できる強い根拠になる。

以上(長くなっちまった)