要約統計量(ようやくとうけいりょう)とは、標本の分布の特徴を代表的に(要約して)表す統計学上の値であり、統計量の一種。記述統計量(descriptive statistics value)、基本統計量、代表値(representative value)ともいう 。
正規分布の場合は、平均と、分散または標準偏差で分布を記述できる。正規分布からのずれを知るためには、尖度や歪度などの高次モーメントから求められる統計量を用いる。
正規分布から著しく外れた場合には、より頑健な中央値、四分位点、最大値・最小値や最頻値が用いられる。「頑健」とは分布の非対称性や外れ値などの影響を受けにくいことを意味する統計用語である。例えば、労働者一人あたりの年収を例に採れば、最も収入が少なくても0未満にはならないのに対し、収入が多いほうでは数十億円という年収を稼ぐ少数者があり得る。この場合の分布は、少数者が上側にいることによって、上側に極端に尾を引いた非対称な分布となる。平均値はこれらの極端な高値の影響を受け、分布の代表値として適切でないものとなってしまう。中央値や最頻値では、いかに飛び抜けた値であっても1例としてしか扱われないので、より大多数の実感に近い値を示すことができる。
目次
- 1 モーメントから求められる要約統計量
- 1.1 平均
- 1.2 分散、標準偏差
- 1.3 歪度
- 1.4 尖度
- 2 順序から求められる要約統計量
- 2.1 中央値
- 2.2 刈込平均(トリム平均(英語版))
- 2.3 四分位点
- 2.4 最小値・最大値
- 3 度数から求められる要約統計量
- 4 脚注
- 5 参考文献
- 6 関連項目
モーメントから求められる要約統計量
詳細は「平均」、「分散」、「標準偏差」、「歪度」、および「尖度」を参照
N 個のデータ に対する統計量を考える。まず、平均値 と、平均値まわりの m 次中央モーメント[3] を
-
-
で定義する。
平均
原点まわりの1次モーメント 。和を個数で割ったもの。
分散、標準偏差
2次中央モーメントから求められる統計量。分布の広がりを表す。
- 分散:
- 標準偏差:
歪度
3次中央モーメントから求められる統計量。分布の左右非対称の度合いを表す。
尖度
4次中央モーメントから求められる統計量。分布の峰の鋭さ(裾野の広さ)を表す。
ただし、3 を引かない定義もある。
順序から求められる要約統計量
詳細は「中央値」および「分位数」を参照
以下、昇順にソートされた N 個のデータ に対する統計量(順序統計量)を考える。
中央値
メジアン、メディアン (median) ともいう。データの大きさに関してちょうど中央に当たるデータ x(N + 1) / 2 。ただし、整数でない添数に対する中央値は線形補間によって定義する(つまり N が偶数のときは xN / 2 と xN / 2 + 1 の平均とする)。
刈込平均(トリム平均(英語版))
最大値、最小値を除外した平均。除外する数を増やして行くと、最後は中央値になる。そのため、中央値は刈込平均の一つである[4]。
四分位点
集団を値の大きさで4等分するとき、その境界となる値。x(N + 3) / 4 を第1四分位点、x(3N + 1) / 4 を第3四分位点という。x(2N + 2) / 4 、つまり第2四分位点は中央値である。
最小値・最大値
集団に含まれる最も小さい値 x1 と、最も大きい値 xN 。
これらの統計量を視覚化するために、箱ひげ図を用いる。
中点値
最大値と最小値を足して2で割ったものを中点値(mid-range)とよび、代表値として用いることがある。
範囲
最大値と最小値の差を範囲(range)とよび、代表値として用いることがある。記号はRを用いる。
度数から求められる要約統計量
最頻値
モード (mode)、並み数 ともいう。データのうち、度数分布において最も高い度数を示す値、つまり最も多く現れているデータの値。
脚注
- ^ 用語「m 次中央モーメント」は、竹内啓(編集委員代表)『統計学辞典』東洋経済新報社, 1989 による。
- ^ 西岡康夫,数学チュートリアル やさしく語る 確率統計,オーム社, p.5, p.52013, ISBN 9784274214073
参考文献
- 西岡康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。ISBN 9784274214073。
- 日本数学会 『数学辞典』 岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999), http://kikakurui.com/z8/Z8101-1-1999-01.html
- 伏見康治 『確率論及統計論』 河出書房、1942年。ISBN 9784874720127。
- 竹内啓(編集委員代表) 『統計学辞典』 東洋経済新報社、1989年。ISBN 9784492010389。
関連項目
- 統計量
- 平均
- 分散、標準偏差
- 尖度、歪度
- 中央値、四分位点
- 最大値・最小値
- 順序統計量
- 検定統計量
統計学 |
標本調査 |
|
要約統計量 |
|
統計的推測 |
仮説検定 |
- 帰無仮説
- 対立仮説
- 有意
- 棄却
- ノンパラメトリック手法
- スチューデントのt検定
- ウェルチのt検定
- カイ二乗検定
- イェイツのカイ二乗検定
- 累積カイ二乗検定
- F検定
- G検定
- マン・ホイットニーのU検定
- Z検定
- フィッシャーの正確確率検定
- 二項検定
- 尤度比検定
- マンテル検定
- コクラン・マンテル・ヘンツェルの統計量
- ウィルコクソンの符号順位検定
- アンダーソン–ダーリング検定
- カイパー検定
- ジャック–ベラ検定
- シャピロ–ウィルク検定
- コルモゴロフ–スミルノフ検定
- 分散分析
- 共分散分析
|
区間推定 |
|
その他 |
- 最尤推定
- 最大事後確率
- ベイズ推定
- 尤度関数
- カーネル密度推定
- 最小距離推定
- メタアナリシス
|
|
生存時間分析 |
- 生存時間関数
- カプラン=マイヤー推定量
- ログランク検定
- 故障率
- 比例ハザードモデル
|
相関 |
- 交絡変数
- ピアソンの積率相関係数
- 順位相関
- スピアマンの順位相関係数
- ケンドールの順位相関係数
|
モデル |
- 一般線形モデル
- 一般化線形モデル
- 混合モデル
- 一般化線形混合モデル
|
回帰 |
線形 |
- 線形回帰
- リッジ回帰
- Lasso
- エラスティックネット
|
非線形 |
- k近傍法
- 回帰木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクター回帰
- 射影追跡回帰
|
|
分類 |
線形 |
- 線形判別分析
- ロジスティック回帰
- 単純ベイズ分類器
- 単純パーセプトロン
- 線形サポートベクターマシン
|
二次 |
|
非線形 |
- k近傍法
- 決定木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクターマシン
- ベイジアンネットワーク
- 隠れマルコフモデル
|
その他 |
|
|
教師なし学習 |
|
統計図表 |
- 棒グラフ
- バイプロット
- 箱ひげ図
- 管理図
- 森林プロット
- ヒストグラム
- Q-Q プロット
- ランチャート
- 散布図
- 幹葉図
|
歴史 |
|
応用 |
- 社会統計学
- 生物統計学
- 統計力学
- 計量経済学
- 機械学習
- 実験計画法
|
出版物 |
|
カテゴリ |
|