出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2015/03/13 14:47:52」(JST)
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(2012年10月) |
シンプソンのパラドックスは1951年にE. H. シンプソン(英語版)によって記述された統計学的なパラドックスである。母集団での相関と、母集団を分割した集団での相関は、異なっている場合がある。つまり集団を2つに分けた場合にある仮説が成立しても、集団全体では正反対の仮説が成立することがある。
統計学者にとっては1世紀以上前からこの現象は既知であったが、哲学者、コンピュータを扱う科学者、疫学者、経済学者らは最近でもこのパラドックスに対する議論を行っている。
A君とB君が1回目と2回目で合わせて110問を解くというテストを受けた。最初のテストでは、A君は100問を解き60問正解で、B君は10問中9問が正解であった。次のテストでは、A君は10問中1問、B君は100問中30問が正解だった。A君とB君のどちらの正答率が上なのだろうか?
この例について考えてみる。話を整理するためにいくつかの記号を導入する。
このパラドックスでは、計算の方法が考慮されていない。もし、SB(1) > SA(1) かつ SB(2) > SA(2)であれば、私たちは SB は SAよりも大きいに違いない、と思いこみがちである。 しかし、各々の総得点を計算する際に異なった加重を与えてみるとどうなるだろうか。A君の最初のテストの加重は100/110でありB君では10/110である。2回目のテストの加重は各々、A君 10/110、B君 100/110となる。
加重を与えることによってAの総得点率はSA = 61/110 = 約55%、Bの総得点率はSB = 39/110 = 約35%と計算できる。このように、計算方法によりパラドックスを見抜くことが出来る。
しかし、これはA君とB君が「まったく同じ内容の110問テストを受けていた」という仮定においてのみ有効で、たとえば110人の顧客対応に対するリピート率や顧客満足アンケートへの回答の集計など現実的な統計処理においては、依然として個人の成績と全体の成績の間には矛盾が残る。
総得点に基づくとA君の方が上だと考えられる。しかし、次の例のようにB君の方が上であるかのように話を持って行くことは可能である。
上の話では、A君とB君の状況を先ほどのテストの話から何も改変していない。これらの問題は近年の文献でシンプソンのパラドックスとして議論された問題である。
全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.
リンク元 | 「Simpson paradox」 |
関連記事 | 「ラド」 |
.