確率と個体差


確率の定義には、ラプラスによる古典的なもの、頻度論的(統計的)なもの、コルモゴロフによる公理的なものがあり、学校では最初に古典的な確率の定義を習う。ポイントは「同様に確からしい」という概念だが、この概念そのものが確率の概念を含んでおり、古典的な確率の定義は微妙にトートロジーになっている。従ってあまり具合が良くない。
代数学における確率論は、コルモゴロフによる公理的な確率を基礎にし、理論的には具合がよいが、そのかわりに、確率の意味や解釈は完全にスルーしている。従って、確率を解釈したい向きには、非常に具合が悪い。確率の解釈については、頻度論的なものと主観的確率的なものがあり、両者は飽くなき抗争を続け、現在は頻度論が優勢に見えるが、最近は主観的確率の一派の元気がいい。
さて、現実の世界を見てみると、まったく同じ人は存在しない。それなのに、ある病気で死亡する確率「的」なもの(死亡率)が議論されている。一体、この確率とはどういう意味か? 
各個人が、ある病気で死亡する確率はそれぞれ異なり、ある集団から個人を無作為に選ぶと、ある病で死亡する確率そのものがさらに確率変数となる(確率の公理を満たす)。
これは、個人を無作為に抽出したなら、その個人の身長や体重が確率変数となる理屈と同じなのだが、個人で一回しか観測できない離散的な事象の確率が存在するというのは、頻度論的には定義が困難である(ある個人がある病気で死亡するかどうかは0か1であって、たとえば0.7などというのはあり得ないという批判)。
コイン投げで考えると、一回しか投げることができないコインの表が出る確率のようなものであるが、実は古典的確率の定義では、コインを投げなくてもかまわない。各事象(表が出る、裏が出る)が同様に確からしいという条件が成立すれば、コインを投げずとも表が出る確率が定義できる(同様に確からしいことを確かめる方法はないので、具合が悪いのであるが)。

そこで、もし、あるコインでは、表が出るのは裏が出るよりX倍確からしいという条件が成立するなら、実際にそのコインを投げなくても確率が定義でき、表が出る確率が様々であるコインを無作為に選んで、表が出る確率を確率変数として扱うことができる。さらに、無作為に選んだ様々なコインを投げた場合に、表が出る回数も確率変数となる。

以下に引用するページでは、表が出る(真の)確率がベータ分布する場合の、コイン投げのシミュレーションを解説している。

http://www.singularpoint.org/blog/r/beta-binomial-distribution/

2つのサンプリングモデルでは、表の出る回数の分布は異なり、「そこから一枚コインを一枚抜き出して、n 回投げた。表の出る回数 k が従う分布は」ベータ二項分布、「そこからコインを一枚抜き出して、1 回投げる。そのコインを袋に戻す。これを n 回くりかえした。表の出る回数 k が従う分布は」二項分布に近い形状をしている。病気で死亡する確率も、このアナロジーで解釈できる。