出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2013/02/19 08:47:21」(JST)
偏り(かたより)、またはバイアスという用語は、統計学で2つの異なる意味に用いられる。
偏りという用語は悪い意味に聞こえるが、必ずしもそうではない。偏った標本は悪いものだが、偏った推定量のよしあしは状況による。
母集団の一部の要素が他よりも標本として選ばれやすい場合に、標本に偏りがあるという。偏った標本は一般に誤った推定量を与える。推定する量が高い、または低いような要素が標本に多く含まれていれば結果は本当の値とは違ってしまう。
有名な例に1936年のアメリカ大統領選の予想がある。Literary Digest誌は200万人の調査から、対立候補がF.D.ルーズベルト候補に勝つ(57%対43%)と予想したが、ギャラップは30万人の調査からルーズベルトの勝利を予想し、結局こちらが正しかった。Literary Digestは電話や自動車の保有者リストから標本抽出したので、標本のサイズが莫大だったにもかかわらず富裕層に偏ってしまったのである。
この種の偏りは通常、統計学的なノイズよりも悪いものと考えられる。ノイズの問題は標本を大きくすることで軽くすることができるが、偏った標本ではそのように簡単に解決できない。メタアナリシス(複数の統計調査結果をまとめてさらに解析すること)はうまく用いれば、単独ではノイズを含む調査からよりよいデータを引き出すことができるが、偏りのある調査ばかり用いてメタアナリシスをしても偏りは減らせない。このような偏りを減らすには、適切な標本抽出の手法を、個別分野の知識に基づいて利用する必要がある。
これは、実際に推定しようとしている量とは違うような平均値をもつ統計量を推定量として使ってしまうことをいう。逆にこの平均値が推定しようとしている量に等しい場合には、不偏推定量という。
推定量(観察データの関数)を使って母数θ を推定するとしよう。の偏りは:
と定義される。つまり「推定量の期待値と本当の値θ との差」。書き換えると
つまり「推定量と本当の値θ との差の期待値」。
例えばX1, ..., Xnを独立で同じ分布に従うランダム変数でその期待値をμ 、分散(不偏分散)をσ2とし、
を標本平均、
を標本分散とする。するとS2は、σ2の推定量としては偏りがある。なぜなら
しかし標本が正規分布に従う母集団から抽出されたものならば、この「偏りのある推定量」は、普通用いられる「平均二乗誤差」という意味では、S2の分母 n を n-1 に変えた不偏推定量よりもよい。それでも母分散の不偏推定量の平方根は母標準偏差の不偏推定量ではない。非線形関数f と母数p の不偏推定量U に対してはf(U) は普通f(p) の不偏推定量ではないからである。
偏りのある推定量が不偏推定量よりもよいという極端な例に、次のようなものがある。X が期待値λ のポアソン分布に従うとしよう。推定したいのは
で、不偏推定量に当てはまるただ一つの関数は
である。
X の観察値が100とすると、推定量は1となるが、推定する本当の量は明らかに0に近く、これは反対の極端である。さらにXの観察値が101とすると推定量は-1となってしまうが、推定する量は正でなければならないはずである。最尤推定量(最尤法で求められる推定量)
(これは偏りがある)は上の不偏推定量よりもよい。なぜならその平均二乗誤差
は、不偏推定量の平均二乗誤差
よりも小さいからである。
この平均二乗誤差は本当の値λ の関数である。最尤推定量の偏りは
ということになる。
最尤推定量の偏りはかなり大きくなるおそれがある。例えば、1 から n まで番号を打った n 枚のカードを箱に入れた場合を考える。ランダムに1枚を取り出したところ、番号はX だったとしよう。n が不明ならば、X の期待値が (n+1)/2 だとしても、n の最尤推定量はX であり、n は少なくともX 以上と言えるだけである。この場合、自然な不偏推定量は 2X-1 である。
リンク元 | 「コホート研究」「症例対照研究」「バイアス」「ふれ」 |
名称 | 患者対照研究 | コホート研究 | |
時間軸 | 後向き研究 | 前向き研究 | |
調査の方法 | 既往調査、病歴調査 | 追跡調査 | |
対象 | 曝露情報の 信頼性 |
患者の過去の記録やカルテに頼るため 信頼性は低い | 現時点での曝露状況が判明しているので信頼性は高い |
対象 | 偏り バイアス |
抽出の段階で、既に患者、対照群とも に偏りが発生している場合が多い | 母集団から、要因の有無別に対照群が 抽出されるため、偏りは小さい |
対象 | まれな要因 | 評価不能 | 評価可能 |
調査 | 観察期間 | なし | 長期 |
調査 | 費用 労力 |
患者と対照のみを観察するので、費用・労力が少ない | 大きな集団を長期に追跡しなければな らないので、費用・労力が多い |
疾患 | 対照疾患 | 単一 | 複数 |
疾患 | 診断の正確性 | 正確性が高い | 正確性が低い →診断基準が必要 |
疾患 | まれな疾患 | 可能 | 困難 |
解析 | 罹患率 | 計算不可 | 算出可能 |
解析 | 相対危険度 | 近似値の算出 | 算出可能 |
解析 | 寄与危険度 | 計算不可 | 算出可能 |
名称 | 患者対照研究 | コホート研究 | |
時間軸 | 後向き研究 | 前向き研究 | |
調査の方法 | 既往調査、病歴調査 | 追跡調査 | |
対象 | 曝露情報の 信頼性 |
患者の過去の記録やカルテに頼るため 信頼性は低い | 現時点での曝露状況が判明しているので信頼性は高い |
対象 | 偏り バイアス |
抽出の段階で、既に患者、対照群とも に偏りが発生している場合が多い | 母集団から、要因の有無別に対照群が 抽出されるため、偏りは小さい |
対象 | まれな要因 | 評価不能 | 評価可能 |
調査 | 観察期間 | なし | 長期 |
調査 | 費用 労力 |
患者と対照のみを観察するので、費用・労力が少ない | 大きな集団を長期に追跡しなければな らないので、費用・労力が多い |
疾患 | 対照疾患 | 単一 | 複数 |
疾患 | 診断の正確性 | 正確性が高い | 正確性が低い →診断基準が必要 |
疾患 | まれな疾患 | 可能 | 困難 |
解析 | 罹患率 | 計算不可 | 算出可能 |
解析 | 相対危険度 | 近似値の算出 | 算出可能 |
解析 | 寄与危険度 | 計算不可 | 算出可能 |
.