平均 (へいきん、英: mean, average , 独: Mittelwert , 仏: moyenne )または平均値 (へいきんち、英: mean value, average value )とは、数学において、数の集合の中間的な値のことで、算術平均(相加平均)・幾何平均(相乗平均)・調和平均・対数平均など様々な種類の平均がある。
特に指定しない場合は一般的には算術平均の事を単に平均という。これは、集合の総和を集合の要素数で割ったものである。例えば A、B、C という3人の体重がそれぞれ 55 kg、60 kg、80 kg であったとすると、3人の体重の平均値は (55 kg + 60 kg + 80 kg) ÷ 3 = 65 kg である。
数学以外では、日本語では、不揃いでないこと、釣り合いが取れていることなどの意味もある。
算術平均を用いる際の注意
社会調査では、算術平均を代表値として使うことがある。社会調査では算術平均が中央値、最頻値、中点値と比べて調査の目的に適切かどうかを検討する必要がある。正規分布の場合は算術平均と標準偏差を用いることは適切だが、それ以外の分布の場合はよく考える必要がある。
例を挙げる。所得の事例では、所得の分布は正規分布ではなく、一部の高所得者が算術平均値を引き上げてしまう。日本の国税庁の民間給与実態統計調査によると、平成29年度の場合、給与所得の算術平均値は423万円だが、最頻値は300万円~400万円の区分であり、ズレている[2] 。従って、一般的な世帯の所得について考察するのが目的ならば中央値や最頻値を用いる方法もあるが、所得は97%~99%は所得の対数値が正規分布(対数正規分布)にしたがっているため[3] 、所得の対数値の算術平均、つまり幾何平均を用いるのが適切な所得の代表値であるとも言える。
分布が左右対称でない時、中央値、最頻値を用いると良い場合もある。また、とびぬけた値がごく少数の場合には、最大と最小を除外した刈込平均(トリム平均(英語版) )を用いることもある。平均が中央値、最頻値、中点値と乖離している場合は刈込平均を含めた平均以外の使用を考えるとよい 。
統計学
統計学では、観測データから算術的に計算して得る統計指標値という。
算術平均を統計学では相加平均と呼んでいる。
母平均と標本平均
統計学では平均には母平均と標本平均がある。母平均は、母集団の相加平均のこと。標本平均は、抽出した標本(母集団の部分集合)の相加平均のこと。母平均を μ と書き、標本平均を m と書いて区別する場合がある。
相加平均
詳細は「算術平均」を参照
算術平均(さんじゅつへいきん、英: arithmetic mean , 独: arithmetisches Mittel , 仏: moyenne arithmétique )とも呼ぶ。単に平均といった場合は相加平均を意味する。
相加平均を
μ
=
1
n
∑
i
=
1
n
x
i
=
x
1
+
x
2
+
⋯
+
x
n
n
{\displaystyle \mu ={\frac {1}{n}}\sum _{i=1}^{n}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}}
と定義する。あるいは
n
μ
=
∑
i
=
1
n
x
i
=
x
1
+
x
2
+
⋯
+
x
n
{\displaystyle n\mu =\sum _{i=1}^{n}x_{i}=x_{1}+x_{2}+\cdots +x_{n}}
と表す。
x
1
,
x
2
,
…
,
x
n
{\displaystyle x_{1},x_{2},\dots ,x_{n}}
の相加平均を
x
¯
{\displaystyle {\bar {x}}}
とも表す。
相加平均は、加法とスカラー倍が可能であるような量(実数, 複素数, ベクトル等)について定義する。
一般化平均
相乗平均
詳細は「幾何平均」を参照
相乗平均(そうじょうへいきん)または幾何平均(きかへいきん、英: geometric mean , 独: geometrisches Mittel , 仏: moyenne géométrique )を
μ
G
=
∏
i
=
1
n
x
i
n
=
x
1
x
2
⋯
x
n
n
{\displaystyle \mu _{\mathrm {G} }={\sqrt[{n}]{\prod _{i=1}^{n}x_{i}}}={\sqrt[{n}]{x_{1}x_{2}\dotsb x_{n}}}}
と定義する。相乗平均は相加平均、幾何平均は算術平均と対になった用語である。
あるいは
μ
G
n
=
∏
i
=
1
n
x
i
=
x
1
x
2
⋯
x
n
{\displaystyle {\mu _{\mathrm {G} }}^{n}=\prod _{i=1}^{n}x_{i}=x_{1}x_{2}\dotsb x_{n}}
とも表せる。
対数を取ると
μ
G
=
exp
(
1
n
∑
i
=
1
n
log
x
i
)
{\displaystyle \mu _{\mathrm {G} }=\exp \left({\frac {1}{n}}\sum _{i=1}^{n}\log x_{i}\right)}
n
log
μ
G
=
∑
i
=
1
n
log
x
i
{\displaystyle n\log \mu _{\mathrm {G} }=\sum _{i=1}^{n}\log x_{i}}
となり、相乗平均は、対数の算術平均の指数関数である。あるいは、相乗平均の対数は対数の算術平均である。
データに1つ以上の0があるときは、相乗平均は0となる。データが実数であっても、積が負になる場合は、相乗平均は複素数になる可能性がある。
相乗平均は、積と累乗根が可能であるような量(実数, 複素数)について定義できる。
調和平均
詳細は「調和平均」を参照
調和平均(ちょうわへいきん、英: harmonic mean )を、
μ
H
=
n
∑
i
=
1
n
1
x
i
=
n
1
x
1
+
1
x
2
+
⋯
+
1
x
n
{\displaystyle \mu _{\mathrm {H} }={\frac {n}{\displaystyle \sum _{i=1}^{n}{\frac {1}{x}}_{i}}}={\frac {n}{{\dfrac {1}{x_{1}}}+{\dfrac {1}{x_{2}}}+\dotsb +{\dfrac {1}{x_{n}}}}}}
と定義する。あるいは
n
μ
H
=
∑
i
=
1
n
1
x
i
=
1
x
1
+
1
x
2
+
⋯
+
1
x
n
{\displaystyle {\frac {n}{\mu _{\mathrm {H} }}}=\sum _{i=1}^{n}{\frac {1}{x_{i}}}={\frac {1}{x_{1}}}+{\frac {1}{x_{2}}}+\dotsb +{\frac {1}{x_{n}}}}
とも表せる。
調和平均は、逆数の算術平均の逆数である。あるいは、逆数の算術平均は調和平均の逆数である。
しかし、データに1つ以上の0があるとき、調和平均の定義式はそのままでは使えないが、0への極限を取ると、調和平均は0となる(
x
i
→
0
{\displaystyle x_{i}\rightarrow 0}
のとき
μ
H
→
0
{\displaystyle \mu _{\mathrm {H} }\rightarrow 0}
)。データに負数があっても調和平均は計算することができる。ただし、正負が混在している場合に逆数の和が0になることがあり、その場合の極限は発散する。
一般化平均
算術平均、相乗平均、調和平均は同じ式
μ
m
=
1
n
∑
i
=
1
n
x
i
m
m
{\displaystyle \mu _{m}={\sqrt[{m}]{{\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{m}}}}
あるいは
n
μ
m
m
=
∑
i
=
1
n
x
i
m
{\displaystyle n\mu _{m}^{m}=\sum _{i=1}^{n}x_{i}^{m}}
で表せる。この式を一般の実数 m に対し定義した値を一般化平均と呼ぶ。
m = 1 で算術平均、m = −1 で調和平均となり、m → 0 への極限が相乗平均である。これらのほか、m = 2 の場合を二乗平均平方根 (RMS) と呼び、物理学や工学で様々な応用をもつ。m → ∞ への極限は最大値、m → −∞ への極限は最小値である。
一般化平均は、ベクトル
(
x
1
,
…
,
x
n
)
{\displaystyle (x_{1},\dots ,x_{n})}
の m -ノルムを
n
m
{\displaystyle {\sqrt[{m}]{n}}}
で割った結果に一致する。
データの m 乗の平均、つまり、一般化平均の m 乗
μ
m
m
=
1
n
∑
i
=
1
n
x
i
m
{\displaystyle \mu _{m}^{m}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}^{m}}
を m 乗平均と呼ぶ。
m 乗平均・一般化平均の応用として、例えば統計学では分散と標準偏差がある。それぞれ m = 2 の場合の m 乗平均・一般化平均により定義されている。(ただし、相加平均を引いた後 m 乗平均・一般化平均を取る)。
一般化平均はさらに一般化が可能で、全単射な関数 f により
μ
f
=
f
−
1
(
1
n
∑
i
=
1
n
f
(
x
i
)
)
{\displaystyle \mu _{f}=f^{-1}\left({{\frac {1}{n}}\sum _{i=1}^{n}{f(x_{i})}}\right)}
という平均が定義できる。恒等関数 f (x )= x により相加平均が、逆数 f (x )= 1/x により調和平均が、対数関数 f (x )= log x により相乗平均がそれぞれ表されている。
定義域
一般の実数 m による一般化平均は、全てが非負の実数であるデータに対してのみ定義される。これは、一般化平均の式に現れる m 乗根(冪関数)が負数に対し定義できないためである。例外は、冪関数を使わずに計算できる算術平均と調和平均 (m = ±1) である。m ≠ ±1 の場合、1つ以上の負数が含まれるデータに対し、一般化平均の定義式は実数を返さないか、実数を返したとしても結果は解釈が難しい。
m < 0 の場合、1つ以上の0が含まれるデータに対し一般化平均の定義式は使えないが、調和平均同様、0への極限を取ると一般化平均は0となる。幾何平均(m = 0 の一般化平均)も0となるので、m ≦ 0 の場合に一般化平均は0となる。
具体例
相乗平均
78年の経済成長率20%、79年の経済成長率80%の場合、この2年間の平均成長率は
1.2
×
1.8
=
1.469693846...
{\displaystyle {\sqrt {1.2\times 1.8}}=1.469693846...}
より、約47%
調和平均
往は時速60 km 復は時速90 kmの場合の往復の平均速度は
2
1
/
(
60
k
m
h
−
1
)
+
1
/
(
90
k
m
h
−
1
)
=
72
k
m
h
−
1
{\displaystyle {\frac {2}{1/(60~\mathrm {km~h^{-1}} )+1/(90~\mathrm {km~h^{-1}} )}}=72~\mathrm {km~h^{-1}} }
である。
並列接続された電気抵抗の抵抗値などを考える場合に用いる(直列回路と並列回路)。
関係式
相加平均≧相乗平均≧調和平均
n 個のデータが全て正の時、次のような大小関係が成り立つ。
相加平均 ≥ 相乗平均 ≥ 調和平均
x
1
+
x
2
+
⋯
+
x
n
n
≥
x
1
x
2
⋯
x
n
n
≥
n
1
x
1
+
1
x
2
+
⋯
1
x
n
{\displaystyle {\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}\geq {\sqrt[{n}]{x_{1}x_{2}\cdots {}x_{n}}}\geq {\frac {n}{{\frac {1}{x_{1}}}+{\frac {1}{x_{2}}}+\cdots {\frac {1}{x_{n}}}}}}
等号成立のための必要十分条件は、
x
1
=
x
2
=
⋯
=
x
n
{\displaystyle x_{1}=x_{2}=\cdots =x_{n}}
である。
左側の不等式は、「対数を使った関係式」にlogの凸性(ジェンセンの不等式)を適用すれば証明できる(数学的帰納法を使った別証明も知られている)。
右側の不等式は、調和平均が逆数の相加平均の逆数という事実を左側の不等式に適用すれば証明できる。
相加平均と調和平均の相乗平均
データ数n が2のときの相加平均、相乗平均、調和平均をそれぞれA 、G 、H とすると、
A
=
x
1
+
x
2
2
,
G
=
x
1
x
2
,
H
=
2
x
1
x
2
x
1
+
x
2
.
{\displaystyle A={\frac {{x_{1}}+{x_{2}}}{2}},\quad G={\sqrt {{x_{1}}{x_{2}}}},\quad H={\frac {{2}{x_{1}}{x_{2}}}{{x_{1}}+{x_{2}}}}.}
なので、
G
=
A
H
{\displaystyle G={\sqrt {{A}{H}}}}
が成立する。すなわち、もとのデータの相乗平均は相加平均と調和平均の相乗平均に等しくなる。
様々な平均
加重平均
観測される値それぞれに重みがある時には、単に相加平均をとるのでなく重みを考慮した平均をとるのが合理的となる場合がある。各データ x i に、重み w i がついているときの加重平均(重み付き平均) は
w
1
x
1
+
⋯
+
w
n
x
n
w
1
+
⋯
+
w
n
{\displaystyle {\cfrac {w_{1}x_{1}+\dots +w_{n}x_{n}}{w_{1}+\dots +w_{n}}}}
と定義される。全ての重みが等しければ、これは通常の相加平均である。
例えば重み付き最小二乗法では、誤差の小さなデータに大きな重みを与えた残差の加重平均を最小化[注 1] することで、尤度の最大化を図る。重点サンプリング(英語版) によって期待値をモンテカルロ推定するときは、求めたい期待値に関する確率密度とサンプルの確率密度の比を重みとした加重平均を推定量とする。
相乗平均についての重み付き平均は
(
x
1
w
1
⋯
x
n
w
n
)
1
/
p
{\displaystyle \left({x_{1}}^{w_{1}}\dotsb {x_{n}}^{w_{n}}\right)^{1/p}}
と定義される。ただし、
p
=
∑
i
=
1
n
w
i
{\displaystyle p=\sum _{i=1}^{n}w_{i}}
とする。
連続分布の相加平均
「函数の平均」も参照
観測されるデータ x (t ) が区間 [a , b ] 上に連続的に分布しているとき、その相加平均は積分
1
b
−
a
∫
a
b
x
(
t
)
d
t
{\displaystyle {\frac {1}{b-a}}\int _{a}^{b}x(t)\,dt}
と定義される。これは離散分布の相加平均に対して、無限個の平均を算出する操作を極限により表したものである。
対数平均
詳細は「対数平均」を参照
特に x (t ) が指数関数である場合、その相加平均は端点での関数の値 x (a ), x (b ) のみで計算でき、
x
(
b
)
−
x
(
a
)
ln
(
x
(
b
)
)
−
ln
(
x
(
a
)
)
{\displaystyle {\frac {x(b)-x(a)}{\ln \left(x(b)\right)-\ln \left(x(a)\right)}}}
となる。これは対数平均 と呼ばれ、対数平均温度差などの応用例がある。
ベクトルの平均
相加平均や加重平均はベクトルの場合に定義を拡張することができる。ベクトルの平均は物理学における質点の重心と関係がある。相乗平均や調和平均は拡張できない。
相加平均
ベクトル x 1 , ..., x n に対し、それらの(相加)平均を、
x
1
+
⋯
+
x
n
n
{\displaystyle {\frac {{\boldsymbol {x}}_{1}+\dots +{\boldsymbol {x}}_{n}}{n}}}
により定義する。
n = 3 の場合、x 1 , x 2 , x 3 の平均は各点が作る三角形の重心である。これはベクトルの数が n の場合にも一般化でき、x 1 , ..., x n の平均は各点が作る n -単体の重心である。
加重平均
加重平均も同様にベクトルに拡張でき、
w
1
x
1
+
⋯
+
w
n
x
n
w
1
+
⋯
+
w
n
{\displaystyle {\frac {w_{1}{\boldsymbol {x}}_{1}+\dots +w_{n}{\boldsymbol {x}}_{n}}{w_{1}+\dots +w_{n}}}}
と定義される。
m 乗平均・一般化平均はスカラー
‖
x
1
‖
m
+
⋯
+
‖
x
n
‖
m
n
,
‖
x
1
‖
m
+
⋯
+
‖
x
n
‖
m
n
m
{\displaystyle {\frac {\|{\boldsymbol {x}}_{1}\|^{m}+\dots +\|{\boldsymbol {x}}_{n}\|^{m}}{n}},\quad {\sqrt[{m}]{\frac {\|{\boldsymbol {x}}_{1}\|^{m}+\dots +\|{\boldsymbol {x}}_{n}\|^{m}}{n}}}}
として定義される。ただしここで ‖ ・ ‖ は、ベクトルのノルムである。m = 2 の場合、‖ x ‖2 は内積
⟨
x
,
x
⟩
{\displaystyle \langle {\boldsymbol {x}},{\boldsymbol {x}}\rangle }
に一致するので、m = 2 の場合の m 乗平均や一般化平均が特に重要である。たとえば物理学では速さの平均値(根二乗平均速度)として、m = 2 の場合の一般化平均を使うことがある。
ベクトルの加重平均の概念には、物理的な解釈を与えることができる。質点 P1 , ..., Pn がそれぞれ位置 x 1 , ..., x n にあり、それぞれの質量が m 1 , ..., m n であるとき、加重平均
m
1
x
1
+
⋯
+
m
n
x
n
m
1
+
⋯
+
m
n
{\displaystyle {\cfrac {m_{1}{\boldsymbol {x}}_{1}+\dots +m_{n}{\boldsymbol {x}}_{n}}{m_{1}+\dots +m_{n}}}}
は系の重心である。
算術幾何平均
詳細は「算術幾何平均」を参照
a 0 , b 0 を、a 0 > b 0 を満たす2つの非負実数とする。a 1 , a 2 , ..., b 1 , b 2 , ... を
a
i
+
1
=
a
i
+
b
i
2
{\displaystyle a_{i+1}={\frac {a_{i}+b_{i}}{2}}}
b
i
+
1
=
a
i
b
i
{\displaystyle b_{i+1}={\sqrt {a_{i}b_{i}}}}
により定義する。このとき、
lim
i
→
∞
a
i
=
lim
i
→
∞
b
i
{\displaystyle \lim _{i\to \infty }a_{i}=\lim _{i\to \infty }b_{i}}
を a 0 と b 0 の算術幾何平均 という。
移動平均
詳細は「移動平均」を参照
注釈
^ 最小二乗法において、加重和の最小化と加重平均の最小化は同じことである。
出典
^ 民間給与実態統計調査結果 - 標本調査結果|国税庁
^ Clementi, Fabio; Gallegati, Mauro (2005) "Pareto's law of income distribution: Evidence for Germany, the United Kingdom, and the United States", EconWPA
参考文献
岡田泰栄 『平均値の統計』、共立出版<数学ワンポイント双書>、1981年。
鷲尾泰俊 『推定と検定』、共立出版<数学ワンポイント双書>、1978年。
西岡康夫『数学チュートリアル やさしく語る 確率統計』オーム社、2013年。ISBN 9784274214073。
日本数学会『数学辞典』岩波書店、2007年。 ISBN 9784000803090。
JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語 , 日本規格協会, (1999), http://kikakurui.com/z8/Z8101-1-1999-01.html
伏見康治『確率論及統計論』河出書房、1942年。 ISBN 9784874720127。
関連項目
統計学 標本調査 記述統計学
連続データ
位置 分散
範囲
偏差
偏差値
標準偏差
標準誤差
変動係数
決定係数
相関係数
自己相関
共分散
自己共分散
分散共分散行列
百分率
統計的ばらつき
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
t検定
ウェルチのt検定
F検定
Z検定
二項検定
ジャック–ベラ検定
シャピロ–ウィルク検定
分散分析
共分散分析
ノンパラメトリック
ウィルコクソンの符号順位検定
マン・ホイットニーのU検定
カイ二乗検定
イェイツのカイ二乗検定
累積カイ二乗検定
フィッシャーの正確確率検定
尤度比検定
G検定
アンダーソン–ダーリング検定
コルモゴロフ–スミルノフ検定
カイパー検定
マンテル検定
コクラン・マンテル・ヘンツェルの統計量
その他
区間推定 モデル選択基準 その他
偏り
偏りと分散
過剰適合
推定量
点推定
最尤推定
尤度関数
尤度方程式
最小距離推定
メタアナリシス
ブートストラップ法
ベイズ統計学
確率
主観確率
ベイズ確率
事前確率
事後確率
最大事後確率
その他
相関
交絡変数
ピアソンの積率相関係数
順位相関(スピアマンの順位相関係数・ケンドールの順位相関係数)
モデル
一般線形モデル
一般化線形モデル
混合モデル
一般化線形混合モデル
回帰
線形
線形回帰
リッジ回帰
ラッソ回帰
エラスティックネット
非線形
k近傍法
回帰木
ランダムフォレスト
ニューラルネットワーク
サポートベクター回帰
射影追跡回帰
時系列
自己回帰モデル
自己回帰移動平均モデル
ARCHモデル
対移動平均比率法
トレンド定常
傾向推定
共和分
構造変化
分類
線形
線形判別分析
ロジスティック回帰
単純ベイズ分類器
単純パーセプトロン
線形サポートベクターマシン
二次 非線形
k近傍法
決定木
ランダムフォレスト
ニューラルネットワーク
サポートベクターマシン
ベイジアンネットワーク
隠れマルコフモデル
その他
教師なし学習
統計図表
棒グラフ
バイプロット(英語版)
箱ひげ図
管理図
森林プロット(英語版)
ヒストグラム
円グラフ
Q-Qプロット
ランチャート
散布図
幹葉図
バイオリン図
ドットプロット
ヒートマップ
階級区分図
生存時間分析
生存時間関数
カプラン=マイヤー推定量(英語版)
ログランク検定(英語版)
故障率
比例ハザードモデル
歴史 応用
社会統計学
疫学
生物統計学
統計力学
計量経済学
機械学習
実験計画法
出版物 その他 全般
カテゴリ