出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2016/04/26 02:07:29」(JST)
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(2013年5月) |
仮説検定(かせつけんてい、英: hypothesis testing)あるいは統計的仮説検定(statistical hypothesis testing)[補 1]とは、母集団分布の母数に関する仮説を標本から検証する統計学的方法のひとつ。日本工業規格では、仮説(statistical hypothesis)を「母数又は確率分布についての宣言。帰無仮説と対立仮説がある。」と定義している[1]。検定(statistical test)を「帰無仮説を棄却し対立仮説を支持するか,又は帰無仮説を棄却しないかを観測値に基づいて決めるための統計的手続き。その手続きは,帰無仮説が成立しているにもかかわらず棄却する確率がα以下になるように決められる。このαを有意水準という。」と定義している[2]。
統計的仮説検定の方法論は、ネイマン=ピアソン流の頻度主義統計学に基づくもの[補 2]と、ベイズ主義統計学に基づくものとの二つに大きく分けられる[3]。ただし「仮説検定」という場合、前者だけを指すことがある。本項では前者及び日本工業規格での定義を説明する。
統計的仮説検定においては、仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に(予め決めておいた値より)小さければ、その仮説を棄却する(すなわち仮説は成り立ちそうもないと判断する)。
統計的仮説検定は次のような手順で実施する。
仮説が正しいと仮定した場合にその標本が観察される確率を算出できるように、仮説を統計学的に表現する。
検定は下記の二者択一となり、帰無仮説[補 3]を棄却できるかどうかを調べる。
帰無仮説(きむかせつ、Null hypothesis)主張したい仮説の逆の仮説。普通 H0 と書く。
日本工業規格では、「“差がない”,“効果がない”というような形の仮説。ゼロ仮説ともいう。通常,H0で表す。」と定義している[4]。
対立仮説[補 4](たいりつかせつ、Alternative hypothesis)普通 H1 と書く。
日本工業規格では、「帰無仮説が成り立たないときの状態を記述する仮説。通常,H1で表す。備考帰無仮説H0は検定される宣言であり,対立仮説H1は帰無仮説が棄却されたときに採択される宣言である。」と定義している。例として「工程平均µを現行のµ0より小さくすることを目的とした改善の効果を確認したいとき,仮説はH0 :µ=µ0, H1 :µ<µ0となる。このとき,対立仮説は積極的に検証したい仮説となる。」と紹介している[5]。
薬の試験(薬の「効果を主張できるか」を調べる)を例にとれば、帰無仮説は、「効果を主張できない」に当たり、下記のように立てる。
なお、対立仮説は、「効果を主張できる」に当たる。
標本データから、仮説に関係した情報を要約する検定統計量を計算する。下記のように十分性を持つ統計量(十分統計量)が存在すればそれを計算する。単純二仮説の場合は、尤度比が仮説検定の十分統計量となる。
母数に対応する十分統計量は、母集団の確率分布が指数型分布族である場合にのみ存在する[要出典]。例で言えば、指数型分布族で、二つの標本平均の差 m1 − m2 は十分統計量である。
帰無仮説に基づき、検定統計量の確率分布を明らかにする。
例では、標本平均の差は正規分布に従い、その標準偏差は母標準偏差に をかけたもの(ここで n1 と n2 は各標本のサイズ)である。
可能な全ての値の集合の中で、帰無仮説に反する極端な範囲(分布関数をグラフ表示した場合には、裾に当たる部分)を選ぶ。これは検定統計量の危険域 (critical region) と呼ばれる。帰無仮説が正しい場合に検定統計量が危険域内に入る確率を検定の危険率(有意水準あるいは検定のサイズともいい、ふつうαと表す)と呼ぶ。危険率としては、対象分野によって異なるが、α = 0.05 (5%) か α = 0.01 (1%) を用いることがある[6]。検定の種類によっては両側検定または片側検定のみということもある。
日本工業規格では、critical region を棄却域と訳し、「帰無仮説が棄却される検定統計量の値の集合」と定義している。また、備考には「棄却域の限界値を棄却限界値 (critical value) という」と説明している[7]。
帰無仮説が例のように「平均が等しい」と主張するタイプであれば、分布関数の裾として左右両側を用いる(両側検定)。日本工業規格では、「検定統計量が1次元であり、棄却域がある有限区間の両側となる検定」と定義している[8]。
「……の方が平均が大きい(小さい)ということはない」と主張するタイプであれば、片側の裾だけを用いる(片側検定)。日本工業規格では、「検定統計量が1次元であり、棄却域がある棄却限界値より小さい領域(又は大きい領域)となる検定」と定義している[9]。
データから算出した検定統計量が危険域内にあるかどうかを判定する。
通常は統計量が仮定した分布の中で、算出した検定統計量と同じかそれよりも極端な(仮説に反する)値となる確率(これをp値という)を数表などにより求め、これとαとを比較し、p < αならば危険域の内部にあると判断する。 検定統計量が危険域内にあれば、結論は
か、さもなくば
のいずれかになる。 この場合をα水準で統計学的に有意であるという。例では「薬に対して観察された反応はα水準で統計学的に有意である」といえる。分かりやすくいえば、「帰無仮説の下でこのようなことは偶然に起こりそうもないが、ごく小さい確率αで起こり得る」ということである。
一方、検定統計量が危険域の外側にあれば、
統計学の目的は(当然であるが)科学的な真理を明らかにすることではなく、数学的な誤謬をできるだけ減らすことにある。
日本工業規格では、検出力を「帰無仮説が正しくないとき,帰無仮説を棄却する確率。すなわち,第2種の誤りをおかさない確率であり,通常1−βで表される。」と定義している[10]。
帰無仮説が正しいときに、これを棄却してしまう誤りを第1種の誤り(Type I error)という[11]。これを犯す確率をαで表す。このαを危険率とも呼び有意水準に等しい。日本工業規格では、「帰無仮説が正しいとき,帰無仮説を棄却する誤り。あわてものの誤りともいう。」と定義している[12]。なお、ISOではerror of the first kindと表記している[13]。 。
誤った帰無仮説を棄却しない誤りのことを第2種の誤り(Type II error)という[11]。これを犯す確率をβで表す。 1 - βは検定力あるいは検出力(Power)と呼び、誤った帰無仮説を正しく棄却できる確率となる。日本工業規格では、「帰無仮説が正しくないとき,帰無仮説を棄却しない誤り。ぼんやりものの誤りともいう。」と定義している[14]。なお、ISOではerror of the second kindと表記している[15]。
第1種の誤りを減らそうとすれば第2種の誤りが増える(あるいはその逆)という傾向がある。なお第1種の誤り(α)対検出力( 1 - β)をプロットしたものを、受信者操作特性(ROCカーブ)と呼ぶ。
仮説検定では一般に、予め指定した十分小さいαに対し、βをなるべく小さく(検出力をなるべく大きく)するように棄却域を選ぶ方針をとる(ネイマン・ピアソンの基準)。
日本工業規格では、検出力関数を、「仮説があるパラメータで表現されているとき,パラメータの値によって検出力を与える関数。」と定義している[16]。
例のように、母集団の分布として正規分布を、あるいは比較する2群間の等分散(標準偏差が等しい)を仮定する(母数=パラメータを仮定する)検定法をパラメトリック(Parametric)、それらを仮定せず一般の分布に適用できる検定法をノンパラメトリック(Non-parametric)な検定と呼ぶ。具体的な方法の例を挙げる。
検定の目的からは、母数の有意性の検定、適合度検定(特定の母集団から抽出されたものか)、均一性検定(2標本が同一母集団によるものか:上の例)、独立性検定(2標本が独立か)などに分けられる。
|
全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.
リンク元 | 「検定力」 |
関連記事 | 「力」「出力」「検出」 |
.