|
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。
出典を追加して記事の信頼性向上にご協力ください。(2015年9月) |
t検定(ティーけんてい)とは、帰無仮説が正しいと仮定した場合に、統計量がt分布に従うことを利用する統計学的検定法の総称である。母集団が正規分布に従うと仮定するパラメトリック検定法であり、t分布が直接、もとの平均や標準偏差にはよらない(ただし自由度による)ことを利用している。2組の標本について平均に有意差があるかどうかの検定などに用いられる。統計的仮説検定の一つ。日本工業規格では、「検定統計量が,帰無仮説の下でt分布に従うことを仮定して行う統計的検定。」と定義している[1]。
スチューデントのt検定(Student's t-test)とも呼ばれるが、これは統計学者のウィリアム・ゴセットが雇用者であるギネスビール社に本名使用を許されずStudent というペンネームで最初の論文を発表した(1908年)ためである。
目次
- 1 種類
- 2 方法
- 2.1 一群のt検定
- 2.2 回帰分析の係数
- 2.3 独立二群の平均値の差の検定
- 2.3.1 t検定を始める前に
- 2.3.2 等分散の場合
- 2.3.3 異分散の場合(ウェルチのt検定)
- 2.4 関連二組の差の平均値のt検定
- 3 t検定の代替手段
- 4 脚注
- 5 参考文献
- 6 関連項目
種類
t検定は大きく次のように分けられる。
- 2つの母集団がいずれも正規分布に従うと仮定したうえでの、平均が等しいかどうかの検定。
- 標本が対になっている、つまり1組の標本のメンバー各々と、もう1組の特定のメンバーとの間に特別な関係がある場合(例えば、同じ人に前後2回調査する場合、夫と妻とで比較する場合など)。
- 標本が独立で、比較する2つの群の分散が等しいと仮定できる場合(等分散性の仮定)。
- 標本が独立で、等分散性が仮定できない(異分散)場合。これは正確にはウェルチのt検定と呼ばれる。
- 正規分布に従う母集団の平均が、特定の値に等しいかどうかの検定。
- 回帰直線の勾配が0と有意に異なるかどうかの検定。
方法
一群のt検定
母集団の平均値μが特定の値である μ0と等しいかどうかの帰無仮説を検定する際に使用する。
は標本平均であり sは 標本の標準偏差 である。標本サイズは nであり、t検定における自由度はn − 1である。
回帰分析の係数
次のような回帰分析のモデルを考える。
xi, i = 1, ..., nは既存の説明変数であり、 α と βは未知の係数である。そして εiは独立に同一の正規分布に従った期待値0で未知の分散σ2であるランダムな誤差とする。 Yi, i = 1, ..., nは観測値である。この際、 βがある特定の値β0と等しいかどうかをテストしたい (多くの場合β0は 0である。何故なら、βが0であればx と y に相関性が無いと言う事になり、0以外の値であればx と y は相関しているということになる)。
すると
帰無仮説が正しければ、この数値はt値の自由度がn − 2に従う。
すると は
独立二群の平均値の差の検定
一つ目の母集団の平均値μ1が二つ目の母集団の平均値μ2と等しいかどうかの帰無仮説を検定する際に使用する。言い換えるとμ1-μ2=0かどうかの帰無仮説を検定する。
t検定を始める前に
実務的なデータ分析では、母集団が様々な前提を満たしているかどうかを調べるため、以下のような検定をt検定の前段階に行う場合がある。
- 標本が正規分布に従うかどうかは、コルモゴロフ-スミルノフ検定やシャピロ-ウィルク検定などの正規性検定によって判断することもできる。
- 標本の分散が等しいかどうかは、F検定、ルベーン検定、バートレット検定などにより判断する方法がある。
等分散の場合
比較する両群をX1, ..., XmおよびY1, ..., Yn(標本サイズはmおよびn)とする。両群から標本平均および、ならびに不偏分散およびを求める。 両群を合わせた分散の推定値を
により算出する。
これから検定統計量t0 を
により算出する。 両群の平均が等しい場合には「統計量T は自由度ν = m + n – 2 のt分布に従う」ので、これを帰無仮説として両側検定を行う。 このt分布におけるの上側のp値を求め、有意水準αと比較する(あるいは数表で比較を行う)。p < α ならば帰無仮説は棄却され、「両群の平均には有意差がある」といえる。
異分散の場合(ウェルチのt検定)
詳細は「ウェルチのt検定」を参照
前と同じ標本(ただし分散が等しくない)を対象とする。
検定統計量t0 を
により算出する。 t分布の自由度νは、
であるが、これは整数になるとは限らないので、10未満の場合は小数自由度のt分布表を利用する。10以上ならば小数部を切り捨て整数部のみを使用してよい。
関連二組の差の平均値のt検定
n 対のデータがあるとし、対応する2変数をXi とYi 、両者の差をdi = Xi - Yi とする(i = 1, 2, ... , n)。di の平均をとする。差の母集団の平均値μdが特定の値である μ0と等しいかどうかの帰無仮説を検定する際に使用する。
検定統計量 t0 を
により算出する。 t分布の自由度はν = n -1となる。
t検定の代替手段
t検定は、母集団が正規分布をしており標本の分散がχ2 分布をしているという前提の下において、「完全に」正確な確率を計算することができる(ウェルチ検定では「ほぼ」正確な値を計算できる)。逆の言い方をすると、母集団が正規分布に従っていない場合は、標本平均はt値からは多かれ少なかれ乖離する。実務的に標本から母集団が正規分布をしているかどうかという事を判断する事は、色々な検定方法があるとは言うものの、非常に困難である。ただし、中心極限定理によると、母集団の分布が正規分布に従わない標本でさえも、サンプル数が多くなればなるほど、標本平均は正規分布に近似していく。したがって、標本サイズが多ければ多いほど、標準検定値であるはZ値に近似することになる。このような基礎に基づくと、母集団が正規分布から完全に逸脱した分布に従っていて、標本サイズが十分に大きな場合(大学の初等の統計の教科書などではn>30などと載っている場合があるが、勿論多ければ多いほど良い)、Z検定で近似的な確率を計算できる。ただしt値は自由度が上がるとZ値に近似するため、計算上はt検定を用いても殆ど大差ない結果を得られる(哲学的には異なるが)。それがt検定が頑強(robust)であると言われる所以である。
ノンパラメトリック手法
t検定は母集団の正規分布を前提とするパラメトリック検定であるが、この条件が満たされず、さらに標本サイズが小さいと、t検定で近似することも困難となる。そういった場合にはノンパラメトリック検定を用いる方法がある。ノンパラメトリック検定は汎用性を重視し、効率性を犠牲にしているというものの、場合によっては統計のパワー(1 − β)がt検定に比べてはるかに高い。
- 標本が独立ならばマン・ホイットニーのU検定など
- 対になる標本ならばウィルコクソンの符号順位検定など
を用いることができる。ただしt検定やZ検定が母集団の平均値に注目して仮説を立てるのに対して、ノンパラメトリック検定ではランキング、中央値や分布などに注目して仮説を立てることに注意が必要。
脚注
- ^ JIS Z 8101-1 : 1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 2.61 t検定, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html
参考文献
- 西岡康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。ISBN 9784274214073。
- 伏見康治 『確率論及統計論』 河出書房、1942年。ISBN 9784874720127。
- 日本数学会 『数学辞典』 岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, http://kikakurui.com/z8/Z8101-1-1999-01.html
関連項目
統計学 |
|
標本調査 |
|
|
要約統計量 |
|
|
統計的推測 |
仮説検定 |
- 帰無仮説
- 対立仮説
- 有意
- 棄却
- ノンパラメトリック手法
- スチューデントのt検定
- ウェルチのt検定
- カイ二乗検定
- イェイツのカイ二乗検定
- 累積カイ二乗検定
- F検定
- G検定
- マン・ホイットニーのU検定
- Z検定
- フィッシャーの正確確率検定
- 二項検定
- 尤度比検定
- マンテル検定
- コクラン・マンテル・ヘンツェルの統計量
- ウィルコクソンの符号順位検定
- アンダーソン–ダーリング検定
- カイパー検定
- ジャック–ベラ検定
- シャピロ–ウィルク検定
- コルモゴロフ–スミルノフ検定
- 分散分析
- 共分散分析
|
|
区間推定 |
|
|
その他 |
- 最尤推定
- ベイズ推定
- 尤度関数
- カーネル密度推定
- 最小距離推定
- メタアナリシス
|
|
|
生存時間分析 |
- 生存時間関数
- カプラン=マイヤー推定量
- ログランク検定
- 故障率
- 比例ハザードモデル
|
|
相関 |
- 交絡変数
- ピアソンの積率相関係数
- 順位相関
- スピアマンの順位相関係数
- ケンドールの順位相関係数
|
|
モデル |
- 一般線形モデル
- 一般化線形モデル
- 混合モデル
- 一般化線形混合モデル
|
|
回帰 |
線形 |
- 線形回帰
- リッジ回帰
- Lasso
- エラスティックネット
|
|
非線形 |
- k近傍法
- 回帰木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクター回帰
- 射影追跡回帰
|
|
|
分類 |
線形 |
- 線形判別分析
- ロジスティック回帰
- 単純ベイズ分類器
- 単純パーセプトロン
- 線形サポートベクターマシン
|
|
二次 |
|
|
非線形 |
- k近傍法
- 決定木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクターマシン
- ベイジアンネットワーク
- 隠れマルコフモデル
|
|
その他 |
|
|
|
教師なし学習 |
|
|
統計図表 |
- 棒グラフ
- バイプロット
- 箱ひげ図
- 管理図
- 森林プロット
- ヒストグラム
- Q-Q プロット
- ランチャート
- 散布図
- 幹葉図
|
|
歴史 |
|
|
応用 |
- 社会統計学
- 生物統計学
- 統計力学
- 計量経済学
- 機械学習
- 実験計画法
|
|
出版物 |
|
|
カテゴリ |
|