Wikipedia preview
出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2015/11/03 22:10:55」(JST)
[Wiki ja表示]
中央値(ちゅうおうち、英: median)とは、代表値の一つで、有限個のデータを小さい順に並べたとき中央に位置する値。たとえば5人の人がいるとき、その5人の年齢の中央値は3番目に年寄りな人の年齢である。ただし、データが偶数個の場合は、中央に近い2つの値の算術平均をとる。中央値の事を、メディアン、メジアン、中間値とも呼ぶ。ただし、「中間値の定理」の中間値はこの意味ではない。
目次
- 1 平均値との関係
- 2 厳密な定義
- 3 平均値との関係(数式的なもの)
- 4 その他の性質
- 5 確率分布の中央値
- 6 関連項目
平均値との関係
中央値は平均値と類似した目的で使うが、用途によっては中央値のほうが平均値よりも優れていることがある。これは、たとえば年収の場合を考えてみるとわかりやすい。
貧富の差が激しい国では、一部の富裕層が平均年収をつり上げてしまっている為、平均年収は「普通の人」の年収よりもずっと高い値になってしまう。この為平均年収は「普通の人」の生活水準を推し測るには向かない。例えば、人口100人の集落で、90人が年収200万円だとしても、10人が年収5000万円であれば平均年収は680万円となってしまい、実態と大きくかけ離れることになる。
一方中央値は、年収が低い順(高い順)に国民を並べたときに丁度真ん中になる人の年収を表している為、一部の富裕層の年収は中央値に影響せず、中央値は「普通の人」の生活水準により近くなる。
実際、例えば億万長者が小さな町に引っ越してくれば平均年収はつり上がってしまうが、年収の中央値はほとんど変わらない。大金持ちが一人引っ越して来たただけで、「普通の人」の生活水準が変化するとはいえず、中央値のほうがより直感に近い事がわかる。
厳密な定義
実確率変数の累積分布関数をとするとき、は実数値非単調減少関数、右連続関数となる。この時、次の不等式を満足する実数値を中央値(メディアン)と呼ぶ。
但し、積分記号はリーマンスティルチェス積分の意味である。
実数観測値が観測された場合は以下のように簡易的に記述することができる。(ただし、同一の順位が無いと仮定する。)
を実数とする。 小さい順に並べ替えたものをとするとき、 の中央値 は
により定義される。 ただしここで「odd」は奇数を意味し、「even」は偶数を意味する。
なお、単純に とならないのは、 の添数が ではなく だからである。
数学的には中央値には
を最適化する性質をもっている。(ただし、一意に定まらない場合がある)
すなわち中央値は母集団の各要素から絶対距離の和が最も小さくするという意味で母集団を代表していると見ることができる(実際は要素の数が偶数個のときは、代表値tは一意には定まらないが便宜上、上で述べた定義を採用する)。
またこれを要素数nで割ったものを平均偏差(Mean deviation)という。
平均偏差は各データの、中央値からの距離の平均であり、同じ次元ではある標準偏差などと比べ直感的に理解しやすい。
平均値との関係(数式的なもの)
- データの分布が対称である場合は、中央値は平均値に等しい。ただし、分布が対称でなくても、中央値と平均値が等しくなる事もある。
- 以下の性質により、平均値よりも、全体の傾向を表す代表値として適切である場合が多い。
- 平均値は、測定ミスなどによって発生する外れ値(他の値より著しく異なる値)に大きく影響され、誤差が大きくなったり、無意味な値となることがある。そのため、刈り込み、ロバスト統計などの対策が必要になる。しかし、中央値は外れ値にほとんど影響されないので、対策は不要である。
- たとえばデータが正値のみといったように限定されている場合、そうでない場合と比べて分布はより非対称になりやすく、少数の大きな値に引きずられて平均値は大多数の分布より大きくずれることがある。しかし、中央値ではそういった影響はほとんどない。
- を含むデータに対しても中央値は有限となることがある。(平均値は、必ず無限または不定となる)
- 分布の谷に位置するようなケースが、平均値に比べて少ない。(平均値は、2峰分布に対ししばしば谷に位置する)
- 中央値を求めるには、線形汎用選択アルゴリズムを使うと の計算量で求められる(平均値も )。逐次データが得られる場合は全てのデータを保持しておく必要があり、 のメモリを要する(平均値は )。
- 代表値として平均値を使うときは、分布の広がりは分散または標準偏差で表すことが多い。それに対し、代表値として中央値を使うときは、分布の広がりは第3四分位点と第1四分位点の差である四分位範囲(英: interquartile range, IQR)で表すことが多い。
その他の性質
- 誤差はデータの誤差と同程度である。(平均値の誤差はデータの誤差の 倍である)
- 中央値は、第2四分位点、50パーセンタイル、0.5クォンタイルでもある。
確率分布の中央値
1次元の確率分布 に対し、
- ,
を満たす を、中央値と呼ぶ。
関連項目
- 要約統計量
- 箱ひげ図
- 順序統計量
- ホッジス・レーマン推定量
統計学 |
|
標本調査 |
|
|
要約統計量 |
|
|
統計的推測 |
仮説検定 |
- 帰無仮説
- 対立仮説
- 有意
- 棄却
- ノンパラメトリック手法
- スチューデントのt検定
- ウェルチのt検定
- カイ二乗検定
- イェイツのカイ二乗検定
- 累積カイ二乗検定
- F検定
- G検定
- マン・ホイットニーのU検定
- Z検定
- フィッシャーの正確確率検定
- 二項検定
- 尤度比検定
- マンテル検定
- コクラン・マンテル・ヘンツェルの統計量
- ウィルコクソンの符号順位検定
- アンダーソン–ダーリング検定
- カイパー検定
- ジャック–ベラ検定
- シャピロ–ウィルク検定
- コルモゴロフ–スミルノフ検定
- 分散分析
- 共分散分析
|
|
区間推定 |
|
|
その他 |
- 最尤推定
- ベイズ推定
- 尤度関数
- カーネル密度推定
- 最小距離推定
- メタアナリシス
|
|
|
生存時間分析 |
- 生存時間関数
- カプラン=マイヤー推定量
- ログランク検定
- 故障率
- 比例ハザードモデル
|
|
相関 |
- 交絡変数
- ピアソンの積率相関係数
- 順位相関
- スピアマンの順位相関係数
- ケンドールの順位相関係数
|
|
モデル |
- 一般線形モデル
- 一般化線形モデル
- 混合モデル
- 一般化線形混合モデル
|
|
回帰 |
線形 |
- 線形回帰
- リッジ回帰
- Lasso
- エラスティックネット
|
|
非線形 |
- k近傍法
- 回帰木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクター回帰
- 射影追跡回帰
|
|
|
分類 |
線形 |
- 線形判別分析
- ロジスティック回帰
- 単純ベイズ分類器
- 単純パーセプトロン
- 線形サポートベクターマシン
|
|
二次 |
|
|
非線形 |
- k近傍法
- 決定木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクターマシン
- ベイジアンネットワーク
- 隠れマルコフモデル
|
|
その他 |
|
|
|
統計図表 |
- 棒グラフ
- バイプロット
- 箱ひげ図
- 管理図
- 森林プロット
- ヒストグラム
- Q-Q プロット
- ランチャート
- 散布図
- 幹葉図
|
|
歴史 |
|
|
応用 |
- 社会統計学
- 生物統計学
- 統計力学
- 計量経済学
- 機械学習
- 実験計画法
|
|
出版物 |
|
|
カテゴリ |
|
UpToDate Contents
全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.
Japanese Journal
- 個体の変動を取り入れた遺伝的アルゴリズムに基づくスイッチングメジアンフィルタの設計法 (スマートインフォメディアシステム)
- 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115(505), 93-98, 2016-03-10
- NAID 40020801887
- スタックフィルタのハードウェア実装の検討 (スマートインフォメディアシステム)
- 電子情報通信学会技術研究報告 = IEICE technical report : 信学技報 115(505), 43-47, 2016-03-10
- NAID 40020792656
Related Links
- 「メジアン」とは - 中央値、 データを昇順に並べたときに、真中に来る値。 データ数が偶数のときは2つの平均値となる。 関連項目 モード
- 次のデータの平均、メジアン、モードの大小関係を正しく表しているものはどれか。[データ] 50,50,50,55,70,75,75 ... 平均,メジアン,モードに関する問題です。 まずは、モード、メジアンについて説明しましょう。この問題には ...
Related Pictures
★リンクテーブル★
[★]
- 英
- median
- 同
- メディアン、メジアン、中数、中間数、中位数
- 関
- 平均値、最頻値
- 観測されたデータを大きさの順に並べた時、真ん中にくる値。
- the mean is overly sensitive to extreme values, in a slewed distribution the median is a better reposentation of central tendency than the mean.