Wikipedia preview

出典(authority):フリー百科事典『ウィキペディア（Wikipedia）』「2015/01/24 20:57:38」(JST)

wiki ja

仮説検定（かせつけんてい）、もしくは統計学的仮説検定 (Statistical hypothesis testing)、あるいは単に検定法とは、ある仮説が正しいといってよいかどうかを統計学的・確率論的に判断するためのアルゴリズムである。

仮説が正しいと仮定した上で、それに従う母集団から、実際に観察された標本が抽出される確率を求め、その値により判断を行う。その確率が十分に（予め決めておいた値より）小さければ、「仮説は成り立ちそうもない」と判断できる。（なお本項で述べるのは従来の頻度主義統計学の考え方であって、ベイズ主義では考え方が異なる）

手順

仮説検定は次のような手順で実施する。

仮説の設定

仮説が正しいと仮定した場合にその標本が観察される確率を算出できるように、仮説を統計学的に表現する。たとえば薬の試験（薬の効果を主張できることを示したい）を例にとれば、帰無仮説（きむかせつ Null hypothesis）（証明したい仮説の反対の仮説。この場合は、「主張できない」）は

「薬に対する反応の平均がプラセボに対する反応の平均と等しい。どちらの反応も正規分布に従うがその標準偏差は両者で等しく、平均を問題とする」

という仮説を立てる。この仮説は最終的に棄却（間違っていたという判断）されるべきものなので、帰無仮説と呼ばれ、普通 H₀ と書く。また帰無仮説に対立する仮説（対立仮説（たいりつかせつ Alternative hypothesis）： H₁ ）を立てることも多い。上の例では対立仮説は「薬に対する反応の平均がプラセボに対するそれと異なる」ということになる。

統計量の算出

標本データから、仮説に関係した情報を要約する検定統計量を計算する。このような統計量を十分統計量という。母数に対応する十分統計量は、母集団の確率分布が指数型分布族である場合、かつその場合にのみ存在する。

例で言えば、二つの標本平均の差m₁ − m₂は十分統計量である。

統計量の確率分布

仮説に基づき、検定統計量の確率分布を明らかにする。

例では、標本平均の差は正規分布に従い、その標準偏差は母標準偏差にをかけたもの（ここで n₁ と n₂ は各標本のサイズ）である。

危険域の設定

可能な全ての値の集合の中で、仮説に反する極端な範囲（分布関数をグラフ表示した場合には、裾に当たる部分）を選ぶ。これは検定統計量の危険域（Critical region）と呼ばれる。仮説が正しい場合に検定統計量が危険域内に入る確率を検定の危険率（有意水準あるいは検定のサイズともいい、ふつうαと表す）と呼ぶ。危険率として具体的には0.05(5%)、0.01(1%)などを用いることが多い。

仮説が例のように「平均が等しい」と主張するタイプであれば、分布関数の裾として左右両側を用いる（両側検定）。また「･･･の方が平均が大きい(小さい)ということはない」と主張するタイプであれば、片側の裾だけを用いる（片側検定）。検定の種類によっては両側検定または片側検定のみということもある。

判定

データから算出した十分統計量が危険域内にあるかどうかを判定する。

通常は統計量が仮定した分布の中で、算出した十分統計量と同じかそれよりも極端な（仮説に反する）値となる確率（これをp値という）を数表などにより求め、これとαとを比較し、p < αならば危険域の内部にあると判断する。検定統計量が危険域内にあれば、結論は

仮説は正しくない。したがって帰無仮説を棄却する（これから危険域のことを棄却域Rejection regionともいい、それ以外の範囲は採択域Acceptance regionという）

か、さもなくば

α以下の確率しかない事象が起こった

のいずれかになる。この場合をα水準で統計学的に有意であるという。例では「薬に対して観察された反応はα水準で統計学的に有意である」といえる。分かりやすくいえば、「仮説の下でこのようなことは偶然に起こりそうもないが、ごく小さい確率αで起こり得る」ということである。

一方、検定統計量が危険域の外側にあれば、

仮説を棄却するに足る証拠はないというのがただ一つの結論となる。

統計学の目的は（当然であるが）科学的な真理を明らかにすることではなく、数学的な誤謬をできるだけ減らすことにある。

その他の用語

第一種過誤と第二種過誤の値域における最大検出力線の例

帰無仮説が正しいときに，これを棄却してしまう誤りを第1種の過誤（Type I error）といい，これをαで表す。第1種の過誤を犯す確率は危険率とも呼ばれ，有意水準に等しい。

また，誤った帰無仮説を棄却しない誤りのことを第2種の過誤（Type II error）といい，これをβで表す。このとき，1 - βを考えると，これは誤った帰無仮説を正しく棄却できる確率となり，一般に検定力あるいは検出力(Power)と呼ばれる。

第1種の過誤を減らそうとすれば第2種の過誤が増える（あるいはその逆）という傾向がある（模式図 参照）。仮説検定では一般に、予め指定した十分小さいαに対し、βをなるべく小さく（検出力をなるべく大きく）するように棄却域を選ぶ方針がとられる（ネイマン・ピアソンの基準）。

ちなみに検定の実施自体は誤っていないが、検定法の適用を誤っている場合を第3種の過誤（Type III error）という。

種類

例のように、母集団の分布として正規分布を、あるいは比較する2群間の等分散（標準偏差が等しい）を仮定する（母数＝パラメータを仮定する）検定法をパラメトリックParametric、それらを仮定せず一般の分布に適用できる検定法をノン・パラメトリックNon-parametricな検定と呼ぶ。具体的な方法の例を挙げる。

パラメトリックな検定手法

t検定
F検定
回帰分析
分散分析

ノン・パラメトリックな検定手法

サイン検定(符号検定)
Wilcoxon検定 (順位付符号和検定)
Mann-WhitneyのU検定
カイ二乗検定
フィッシャーの直接確率検定

検定の目的からは、母数の有意性の検定、適合度検定（特定の母集団から抽出されたものか）、均一性検定（2標本が同一母集団によるものか：上の例）、独立性検定（2標本が独立か）などに分けられる。

参考文献

蓑谷千凰彦『推定と検定のはなし』東京図書、1988年。

UpToDate Contents

全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.

1. 診断的検査の評価 evaluating diagnostic tests
2. 生物統計学および疫学に関する一般用語集 glossary of common biostatistical and epidemiological terms
3. システマティックレビューおよびメタアナリシス systematic review and meta analysis
4. 証拠、p値、および仮説検定 proof p values and hypothesis testing
5. 緩和ケアにおける予後の告知 communication of prognosis in palliative care

Japanese Journal

統計検定と統計能力の評価

舟岡史雄
中央調査報 (672), 1-5, 2013-10
NAID 40019842409

第1・2回RSS/JSS試験(Higher Certificate)の報告 (特集 3年目を迎える統計検定)

倉田博史
Estrela (234), 14-19, 2013-09
NAID 40019798457

統計調査に関わる資格検定試験の評価と改定 (特集 3年目を迎える統計検定)

舟岡史雄
Estrela (234), 7-13, 2013-09
NAID 40019798449

★リンクテーブル★

リンク元	「統計試験」「statistical test」
関連記事	「検定」「統計」

「統計試験」

　　[★]

英: statistical test
関: 統計検定

「statistical test」

　　[★]

統計検定、統計試験

「検定」

　　[★]

英: assay、test、assay、test
関: アッセイ、検査、検定法、試験、試験法、測定法、定量、テスト、分析、アッセイ法

母数についてある特定の家庭を設定し、その仮定が正しいかどうかについて統計学的に伴ダンスrための手法である。設定した帰無仮説の下で、ある特定の統計量が得られる確率を求める。その検定により得られた確率(p値)がある基準(有意水準)より小さければ、母数に関する帰無仮説が間違っている可能性が高い(有意差がある)と判断する。(QB)

参考

1. 仮説検定 - wiki ja

http://ja.wikipedia.org/wiki/%E4%BB%AE%E8%AA%AC%E6%A4%9C%E5%AE%9A

「統計」

　　[★]

英: statistics、statistical、statistic
関: 統計学、統計学的、統計的、統計量、統計値

匿名

検索

案内

案内

統計検定