ヒストグラムの例。アメリカで1973年から1978年にかけて事故死した人数を月毎に集計したもの。横軸は各月に事故死した人数を500人毎に区切った階級を、縦軸は各階級に属する月の数(=度数)を表している。ヒストグラムからは(a)ひと月に事故死する人数の平均はおよそ8500人前後であること、(b)ひと月に事故死する人数は6500-11500人であること、(c)分布はおよそ対称であること、などが読み取れる。
ヒストグラム(英: histogram[1])とは、縦軸に度数、横軸に階級をとった統計グラフの一種で、データの分布状況を視覚的に認識するために主に統計学や数学、画像処理等で用いられる。柱図表[1]、度数分布図、柱状グラフともいう。
また、工業分野では、パレート図、チェックシート、管理図、特性要因図、層別法、散布図と並んで、品質管理のためのQC七つ道具として知られている。
目次
- 1 語源
- 2 定義
- 3 具体例
- 4 ビンの個数と幅
- 5 種類
- 5.1 U字型分布
- 5.2 均一分布
- 5.3 山型分布
- 5.4 歪曲分布
- 6 脚注
- 7 参考文献
- 8 関連項目
- 9 外部リンク
語源
Histogram(ヒストグラム)は、ギリシャ語で「すべてのものを直立にする」(帆船のマスト、織機のバー、ないしはヒストグラムの縦棒など)という意味を持つ histos(ヒストス)と、同じくギリシャ語で「描いたり、記録したり、書いたりすること」という意味を持つ gramma(グラマ)を合わせたものである。この用語は、イギリスの統計学者カール・ピアソンによって1895年に創案された。
定義
|
この節は検証可能な参考文献や出典が全く示されていないか、不十分です。出典を追加して記事の信頼性向上にご協力ください。(2015年12月) |
日本工業規格JIS Z 9041-1:1999では、「ヒストグラムの書き方 方眼紙又は適当な用紙に図 4 のように横軸に測定値の級の値,縦軸に度数を目盛り,各級に属する度数を柱の高さで示す。図の右上に測定値の総数 n を記入する。」とだけ定義している。累積度数図をその次に説明している。
日本工業規格JIS Z 8101-1 : 1999の2.7 ヒストグラム histogramでは「計量特性の度数分布のグラフ表示の一つ。測定値の存在する範囲をいくつかの区間に分けた場合,各区間を底辺とし,その区間に属する測定値の度数に比例する面積をもつ長方形を並べた図。備考1.ヒストグラムで用いられた区間の幅が一定ならば,長方形の高さは各区間に属する値の度数に比例する。したがって,この場合には高さに対して度数の目盛を与えることができる。 備考2.級の上限を横軸に,累積度数を縦軸にとって打点し,それらの点を結んで得られる折れ線を累積折れ線 (cumulative frequency polygon) という」 と規定している。
同じデータから作られた一般的なヒストグラム(左)と累積度数図。このデータは平均 0、標準偏差 1 の正規分布から無作為に選んだ 10,000 点のサンプルを示している。
ヒストグラム
ヒストグラムは、各々が互いに素である区間・階級(カテゴリ、これをビン (bins) という。ヒストグラムのグラフの柱(棒)のこと)に分類できる、観察結果の数を図にしたもの。計算する関数 mi である。ヒストグラムの図は、階級を一つ決めた時のヒストグラムを表現する方法である。階級の幅は一つの階級のデータ数が全データ数の平方根程度がよいとう見解をはじめ何種類か推奨がある(後述)。基準点も0を含む場合には0を基準点にすることがある。それ以外の場合には、最小値、最大値を含む切りのよい値にする方法と、切りのよい数を中央値とする方法がある。すべての観察結果の数 n とすべてのビンの数 k、ヒストグラム mi を与えて、これらには以下の式の関係が成り立つ。
累積度数図
累積度数図(英: cumulative histogram)は、特定のビンまでのすべてのビンに含む観察結果の累積数を記入する。累積度数関数と Mi はヒストグラム関数 mj を用いて以下の式のように定義できる。
なお、累積度数(cumulative frequency)を日本工業規格では、「ある値以下の観測値の度数または相対度数」と定義している。
具体例
ウィキペディア日本語版の記事「ヒストグラム」(当記事)の2013年1月の閲覧回数を具体例として、ヒストグラムの作成を考える。2013年1月の各日に閲覧された回数は以下の通りである[5]。
日 |
閲覧回数 |
日 |
閲覧回数 |
1 |
78 |
16 |
625 |
2 |
126 |
17 |
606 |
3 |
156 |
18 |
483 |
4 |
231 |
19 |
377 |
5 |
215 |
20 |
370 |
6 |
304 |
21 |
587 |
7 |
484 |
22 |
667 |
8 |
544 |
23 |
643 |
9 |
566 |
24 |
756 |
10 |
545 |
25 |
505 |
11 |
478 |
26 |
436 |
12 |
258 |
27 |
399 |
13 |
225 |
28 |
611 |
14 |
373 |
29 |
679 |
15 |
620 |
30 |
575 |
|
|
31 |
565 |
[表の見方] 11 の欄が 478 となっているのは、2013年1月11日の記事「ヒストグラム」の閲覧回数が 478 回であったことを意味する。
図1.ウィキペディア日本語版の記事「ヒストグラム」の2013年1月における閲覧回数から作成されたヒストグラム
これを集計すると、次のようになる。上述の通り、ビンの数と幅の設定には諸説あるが、ここではビンの数を 8、幅を 100 とした。
閲覧回数 |
その回数を記録した日数 |
0 - 99 |
1 |
100 - 199 |
2 |
200 - 299 |
4 |
300 - 399 |
5 |
400 - 499 |
4 |
500 - 599 |
7 |
600 - 699 |
7 |
700 - 799 |
1 |
[表の見方] 400 - 499 の欄が 4 となっているのは、1 日の記事「ヒストグラム」の閲覧回数が 400 回から 499 回であった日が2013年1月に 4 日あったことを意味する。
したがって、これをヒストグラムにすると、図1のようになる。
ビンの個数と幅
ビンの個数についての最良の値はなく、ビンの大きさが異なれば異なったデータの特徴を示す可能性がある。幾人かの理論家は最適なビンの個数を定義しようと試みたが、これらの方法は概して分布形態に関する強い仮定が設定されてしまっている。実際のデータ分布に依存した分析の行き着く先として、さまざまなビンの幅 (bin width) が適切である可能性があり、通常は実験のたびに適切な幅を決定する必要がある。しかし、さまざまな有用な指針や経験的に得られた方法がある[6]。
ビンの幅 h は、直接的に与えられるか、下で示されるビンの個数 k から次式で与えられる。
- 上式の大括弧は天井関数を示す。
- 平方根選択(英: Square-root choice)
- 標本中のデータ数の平方根をとるものである[7]。
- スタージェスの公式(英: Sturges' formula)
- この式はビンの大きさに暗黙の仮定を置いている。そのため、n < 30 (ビン数が7未満)の場合、この式の使用は不適切である。また、標本が一般的な分布と大きく異なる場合も、この式が適さないことがある。
- スコットの選択(英: Scott's choice)
- ここで σ は標本の標準偏差である。
- フリードマン=ダイアコニスの選択(英: Freedman–Diaconis' choice)[10]
- IQR で示される四分位範囲に基づく。
- L2 危険関数推定の最小化に基づく選択
- ここで m と v は、ビンの幅が h であるヒストグラムの平均値および標本分散である。つまり、m = 1/k ∑k
i = 1 mi であり、v = 1/k ∑k
i = 1 (mi − m)2 である。
種類
次の4種類に分けられる。
- U字型分布
- 均一分布
- 山型分布
- 歪曲分布 次の2種類に分類できる。
- 左歪曲分布
- 右歪曲分布
以下の項目を例を用いて説明する。
U字型分布
最初の区間から徐々に下がっていき、中間(ほとんどの場合)で最小となり、再び上がっていく。このようなヒストグラムをU字型分布 (U-shaped distribution) という。 ビンの数を 10、幅を 10 とする。
点数 |
この点数をとった学生の数 |
0.5-10.5 |
10 |
10.5-21.5 |
8 |
21.5-31.5 |
6 |
31.5-41.5 |
4 |
41.5-51.5 |
2 |
51.5-61.5 |
0 |
61.5-71.5 |
2 |
71.5-81.5 |
4 |
81.5-91.5 |
6 |
91.5-101.5 |
8 |
均一分布
詳細は「連続一様分布」、「離散一様分布」、および「一様分布」を参照
すべての区間の数が等しいとき、または、近いとき(だいたい差が 2 以下)、このヒストグラムを均一分布 (uniform distribution) という。一様分布ともいう。次の 2 種類に分類できる。
- 連続一様分布 (Continuous uniform distribution)
- 離散一様分布 (Discrete uniform distibution)
山型分布
中央区間が最大になっているヒストグラムを山型分布 (mound-shaped distribution) という。
歪曲分布
スケートボード場のような屈曲した形の分布を歪曲分布 (skewed distribution) という。左から下がっていくのを右歪曲分布 (right-skewed distribution)、右へ上がっていくのを左歪曲分布 (left-skewed sidtribution) という。
脚注
- ^ a b 『学術用語集 数学編』。
- ^ 閲覧回数のデータはWikipedia article traffic statisticsによった。
- ^ たとえば Venables & Ripley 2002, § 5.6 "Density Estimation".
- ^ Microsoft Excelのヒストグラムやその他多数で採用されている。
- ^ フリードマン=ダイアコニスの法則の出典は Freedman & Diaconis 1981。
参考文献
- 日本工業規格 JIS Z 9041-1:1999 データの統計的な解釈方法− 第 1 部:データの統計的記述
- 西岡康夫 『数学チュートリアル やさしく語る 確率統計』 オーム社、2013年。ISBN 9784274214073。
- 日本数学会 『数学辞典』 岩波書店、2007年。ISBN 9784000803090。
- JIS Z 8101-1:1999 統計 − 用語と記号 − 第1部:確率及び一般統計用語, 日本規格協会, (1999), http://kikakurui.com/z8/Z8101-1-1999-01.html
- 伏見康治 『確率論及統計論』 河出書房、1942年。ISBN 9784874720127。
- 文部省編 『学術用語集 数学編』 大日本図書、1954年。ISBN 4-477-00170-3。[リンク切れ]
- Magnello, M. Eileen (2005). “Karl Pearson and the Origins of Modern Statistics: An Elastician becomes a Statistician”. The New Zealand Journal for the History and Philosophy of Science and Technology 1. ISSN 1177–1380. http://www.rutherfordjournal.org/article010107.html.
- Venables, W. N.; Ripley, B. D. (2002). Modern Applied Statistics with S (4th ed.). Springer. ISBN 978-0-387-95457-8.
- Sturges, H. A. (1926). “The choice of a class interval”. J. American Statistical Association: 65–66. http://www.jstor.org/stable/2965501.
- Scott, David W. (1979). “On optimal and data-based histograms”. Biometrika 66 (3): 605–610. doi:10.1093/biomet/66.3.605.
- Scott, David W. (1992). Multivariate density estimation. Theory, practice, and visualization (Second ed.). John Wiley & Sons. ISBN 978-0-471-69755-8. MR 3329609. https://books.google.com/books?id=XZ03BwAAQBAJ&pg=PA51. "3. Histograms: theory and practice"
- Freedman, D.; Diaconis, P. (1981). “On the histogram as a density estimator: L2 theory”. Zeitschrift für Wahrscheinlichkeitstheorie und verwandte Gebiete 57 (4): 453–476. doi:10.1007/BF01025868.
- Shimazaki, H.; Shinomoto, S. (2007). “A method for selecting the bin size of a time histogram”. Neural Computation 19 (6): 1503–1527. doi:10.1162/neco.2007.19.6.1503. PMID 17444758. http://www.mitpressjournals.org/doi/abs/10.1162/neco.2007.19.6.1503.
- 坂元慶行、石黒真木夫、北川源四郎、『情報量統計学 (情報科学講座 A・5・4)』 共立出版 1983/1 ISBN 978-4320021716
関連項目
|
ウィキメディア・コモンズには、ヒストグラムに関連するカテゴリがあります。 |
外部リンク
統計学 |
標本調査 |
|
要約統計量 |
|
統計的推測 |
仮説検定 |
- 帰無仮説
- 対立仮説
- 有意
- 棄却
- ノンパラメトリック手法
- スチューデントのt検定
- ウェルチのt検定
- カイ二乗検定
- イェイツのカイ二乗検定
- 累積カイ二乗検定
- F検定
- G検定
- マン・ホイットニーのU検定
- Z検定
- フィッシャーの正確確率検定
- 二項検定
- 尤度比検定
- マンテル検定
- コクラン・マンテル・ヘンツェルの統計量
- ウィルコクソンの符号順位検定
- アンダーソン–ダーリング検定
- カイパー検定
- ジャック–ベラ検定
- シャピロ–ウィルク検定
- コルモゴロフ–スミルノフ検定
- 分散分析
- 共分散分析
|
区間推定 |
|
その他 |
- 最尤推定
- 最大事後確率
- ベイズ推定
- 尤度関数
- カーネル密度推定
- 最小距離推定
- メタアナリシス
|
|
生存時間分析 |
- 生存時間関数
- カプラン=マイヤー推定量
- ログランク検定
- 故障率
- 比例ハザードモデル
|
相関 |
- 交絡変数
- ピアソンの積率相関係数
- 順位相関
- スピアマンの順位相関係数
- ケンドールの順位相関係数
|
モデル |
- 一般線形モデル
- 一般化線形モデル
- 混合モデル
- 一般化線形混合モデル
|
回帰 |
線形 |
- 線形回帰
- リッジ回帰
- Lasso
- エラスティックネット
|
非線形 |
- k近傍法
- 回帰木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクター回帰
- 射影追跡回帰
|
|
分類 |
線形 |
- 線形判別分析
- ロジスティック回帰
- 単純ベイズ分類器
- 単純パーセプトロン
- 線形サポートベクターマシン
|
二次 |
|
非線形 |
- k近傍法
- 決定木
- ランダムフォレスト
- ニューラルネットワーク
- サポートベクターマシン
- ベイジアンネットワーク
- 隠れマルコフモデル
|
その他 |
|
|
教師なし学習 |
|
統計図表 |
- 棒グラフ
- バイプロット
- 箱ひげ図
- 管理図
- 森林プロット
- ヒストグラム
- 円グラフ
- Q-Q プロット
- ランチャート
- 散布図
- 幹葉図
- バイオリン図
|
歴史 |
|
応用 |
- 社会統計学
- 生物統計学
- 統計力学
- 計量経済学
- 機械学習
- 実験計画法
|
出版物 |
|
カテゴリ |
|