共通の平均を持つが、異なる標準偏差を持つ標本のヒストグラム例。赤で示された標本の標準偏差の方が青で示された標本の標準偏差よりも小さい。
平均 0, 標準偏差 σ の正規分布の確率密度関数。この分布に従う確率変数が 0 ± σ の間に値をとる確率はおよそ 68% であることが読み取れる。
標準偏差(ひょうじゅんへんさ、英: standard deviation、SD)とは、分散の平方根のこと。データや確率変数の散らばり具合(ばらつき)を表す数値のひとつ。母集団や確率変数の標準偏差は σ で、標本の標準偏差は s で表されることが多い。例えば、ある試験でクラス全員が同じ点数であった場合(すなわち全員が平均値であった場合)、データにはばらつきがないので、標準偏差は 0 になる。
二乗平均平方根 (RMS) と混同されることもある。両者の差異については、二乗平均平方根を参照。
目次
- 1 母集団の標準偏差
- 2 標本の標準偏差
- 3 確率変数の標準偏差
- 4 標準偏差の推定
- 5 脚注
- 6 参考文献
- 7 関連項目
- 8 外部リンク
母集団の標準偏差
n 個のデータ x1, x2, ..., xn からなる母集団を考える。その母集団の平均(または母平均)は、次のとおりに定義される:
このとき、母平均 μ を使って次式で得られる量を分散(または母分散)と定義する。
この分散の平方根 σ を、母集団の標準偏差と定義する[1]。分散はデータの散らばり具合を表す量であるとはいうものの、元のデータを2乗しているので、元のデータや平均値と単位が異なるため直接比較することができない。そこで平方根をとると元のデータと同じ単位になるので、分散よりも標準偏差の方が散らばり具合を表す量として便利なことがある。
標本の標準偏差
母集団の中から, n 個のデータ x1, x2, ..., xn からなる標本を抽出したとする。このとき、標本平均を次式で定義する:
この標本平均を使って次式で定義される量を標本の分散と呼ぶ。
標本の分散の平方根 s を標本の標準偏差と呼ぶ[1]。
σ2 を母集団の分散、s2 を標本の分散とすると、
となることが示される。つまり、標本の分散は母集団の分散よりも小さくなる傾向がある[3]。そのため、標本の分散は母集団の分散の不偏推定量ではない。そこで、
を考えると、この量の期待値は母集団の分散に等しく、分散の不偏推定量になっている。こうして定義される u2 を不偏分散という。標本分散と呼ぶこともある。
u2 の平方根 u を標本標準偏差ということもある。
不偏分散の平方根 u は、標準偏差の不偏推定量ではない。例えば母集団が正規分布に従う場合、標準偏差の不偏推定量 D は次式で与えられる。
ここで、Γ はガンマ関数、u2 は不偏分散である。
標本サイズが大きくなれば、標準偏差の不偏推定量 D は、近似的に、平均からの偏差平方和を で割った値の平方根として求められる。
名称の混乱
統計の教科書によっては n-1 で割ったものが標本分散という名称になっており[6]、用語が混乱して使用されている場合がある。母平均が不明であって、代わりに標本平均を使用する場合には、期待値が母分散となる不偏分散を使用することが多い[7]。
英語
英語では不偏分散による標準偏差のことを「sample standard deviation」(標本標準偏差)と呼ぶことが多い。この語はカール・ピアソンによって1893年に導入された[8]。ただし不偏分散による標準偏差を意味する英語の表現には混乱がある。
- ウィキペディア英語版の「standard deviation」という記事では、不偏分散による標準偏差(平均からの偏差平方和をn-1で割った値の平方根)のことを「corrected sample standard deviation」と表記し、平均からの偏差平方和をnで割った値の平方根を「uncorrected sample standard deviation」や「the standard deviation of the sample」と表記している。
- アメリカの Fundamentals of Engineering (FE) の試験問題での「sample standard deviation」は n-1 で割る方を意味する。
- アメリカ・ユタ大学のトム・マロイは、統計学の学習者向けウェブページ[9]では、「sample standard deviation」を平均からの偏差平方和をnで割った値の平方根だと解説している。
日本語
日本語の「不偏標準偏差」という語にも混乱がある。日本の大学教授の間でも、不偏分散 u2 の平方根を、不偏標準偏差だと教える大学教員も多いが、標準偏差の不偏推定量 D を不偏標準偏差だと教える教員もいる。
- 兵庫大学の河野稔によるウェブページ[10]では前者である。
- 神戸大学の中澤港によるウェブページ[11]では前者である。
- 東北学院大学の根市一志による資料[12]では後者である。
このように、同じ用語でも話者によって定義が異なるので注意が必要である。[出典無効]
確率変数の標準偏差
離散型確率変数
X を離散型確率変数とする。X のとりうる値が x1, x2, ..., xn で X が xi をとる確率を pi で表す。ここで、
とする。このとき、
を確率変数 X の期待値という。また、
を確率変数 X の分散という。この分散の平方根を標準偏差という。
連続型確率変数
X を連続型確率変数とする。連続関数 f(x) が
を満たし、かつ X の値が区間 [x1, x2] に属する確率が
のとき、f(x) を X の確率密度関数という。このとき、
を確率変数 X の期待値という。また、
を確率変数 X の分散という。この分散の平方根を標準偏差という。
標準偏差の推定
母標準偏差が未知のときは、標本から得られた標本標準偏差から推定することができる。母標準偏差を σ、標本サイズ N の標本標準偏差を s とすると母集団分布が正規分布ならば σ2 は次の自由度 N - 1 の χ2 分布に従う。
σ の推定値の95%信頼限界は P = 0.975 の χ2 から P = 0.025 の χ2 までの範囲で、s と σ の比は N = 5 では 0.31 から 1.49、N = 20 では 0.67 から 1.28 となり、標本が小さい場合はかなり範囲が広いことに留意すべきである。
脚注
- ^ a b 栗原 2011, p. 47
- ^ 例えば、標本サイズが1の場合、ばらつきがないので標本の分散は必ず0となるが、母集団のばらつきは通常0ではない。
- ^ 例: (東京大学教養学部統計学教室編 1991)。
- ^ 分散または標準偏差の図による解説と具体例は、(村瀬, 高田 & 廣瀬 2007, pp. 52-53)などを参照。
- ^ “Earliest Known Uses of Some of the Words of Mathematics (S)”. 2016年1月30日閲覧。
- ^ 「Estimating Parameters Web Page」
- ^ 「健康統計学-散布度」
- ^ 「高崎経済大学非常勤講義 第4回「記述統計(2):代表値」」
- ^ 「標準偏差の不偏性」
参考文献
- Brugger, Richard M (1969-10). “A Note on Unbiased Estimation of the Standard Deviation”. The American statistician (American Statistical Association) 23 (4): 32. ISSN 0003-1305.
- 吉澤, 康和 『新しい誤差論 - 実験データ解析法』 共立出版、1989年。ISBN 4320014243。
- 稲垣, 宣生 『数理統計学』 裳華房、1990年。ISBN 4-7853-1406-0。
- 『統計学入門』 東京大学出版会、1991年。ISBN 4-13-042065-8。
- 村瀬, 洋一、高田, 洋、廣瀬, 毅士 『SPSSによる多変量解析』 オーム社、2007年。ISBN 4-27-406626-6。
- 栗原, 伸一 『入門統計学検定から多変量解析・実験計画法まで』 オーム社、2011年。ISBN 978-4-274-06855-3。
関連項目
- 分散
- 二乗平均平方根 (RMS)
- 標準誤差 (SE)
- 統計学
- リスク
- 正規分布
- 偏差値
- 四分位偏差
外部リンク
- 日本大百科全書(ニッポニカ)『標準偏差』 - コトバンク
統計学 |
|
標本調査 |
|
|
要約統計量 |
|
|
統計的推測 |
仮説検定 |
- 帰無仮説
- 対立仮説
- 有意
- 棄却
- ノンパラメトリック手法
- スチューデントのt検定
- ウェルチのt検定
- カイ二乗検定
- イェイツのカイ二乗検定
- 累積カイ二乗検定
- F検定
- G検定
- マン・ホイットニーのU検定
- Z検定
- フィッシャーの正確確率検定
- 二項検定
- 尤度比検定
- マンテル検定
- コクラン・マンテル・ヘンツェルの統計量
- ウィルコクソンの符号順位検定
- アンダーソン–ダーリング検定
- カイパー検定
- ジャック–ベラ検定
- シャピロ–ウィルク検定
- コルモゴロフ–スミルノフ検定
- 分散分析
- 共分散分析
|
|
区間推定 |
|
|
その他 |
- 最尤推定
- ベイズ推定
- 尤度関数
- カーネル密度推定
- 最小距離推定
- メタアナリシス
|
|
|
生存時間分析 |
- 生存時間関数
- カプラン=マイヤー推定量
- ログランク検定
- 故障率
- 比例ハザードモデル
|
|
相関 |
- 交絡変数
- ピアソンの積率相関係数
- 順位相関
- スピアマンの順位相関係数
- ケンドールの順位相関係数
|
|
モデル |
- 一般線形モデル
- 一般化線形モデル
- 混合モデル
- 一般化線形混合モデル
|
|
回帰 |
線形 |
- 線形回帰
- リッジ回帰
- Lasso
- エラスティックネット
|
|
非線形 |
- k近傍法
- 回帰木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクター回帰
- 射影追跡回帰
|
|
|
分類 |
線形 |
- 線形判別分析
- ロジスティック回帰
- 単純ベイズ分類器
- 単純パーセプトロン
- 線形サポートベクターマシン
|
|
二次 |
|
|
非線形 |
- k近傍法
- 決定木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクターマシン
- ベイジアンネットワーク
- 隠れマルコフモデル
|
|
その他 |
|
|
|
教師なし学習 |
|
|
統計図表 |
- 棒グラフ
- バイプロット
- 箱ひげ図
- 管理図
- 森林プロット
- ヒストグラム
- Q-Q プロット
- ランチャート
- 散布図
- 幹葉図
|
|
歴史 |
|
|
応用 |
- 社会統計学
- 生物統計学
- 統計力学
- 計量経済学
- 機械学習
- 実験計画法
|
|
出版物 |
|
|
カテゴリ |
|