この項目では、情報量(エントロピー)の概念の情報理論的側面について説明しています。熱力学的側面については「エントロピー」をご覧ください。
情報理論
情報量
情報量
微分エントロピー
条件付きエントロピー
交差エントロピー
結合エントロピー
相互情報量
カルバック・ライブラー情報量
エントロピーレート
通信路
情報源符号化定理
通信路容量
通信路符号化定理
シャノン=ハートレーの定理
単位
その他
情報量 (じょうほうりょう)やエントロピー (英: entropy )は、情報理論の概念で、あるできごと(事象)が起きた際、それがどれほど起こりにくいかを表す尺度である。ありふれたできごと(たとえば「風の音」)が起こったことを知ってもそれはたいした「情報」にはならないが、逆に珍しいできごと(たとえば「曲の演奏」)が起これば、それはより多くの「情報」を含んでいると考えられる。情報量はそのできごとが本質的にどの程度の情報を持つかの尺度であるとみなすこともできる。
なおここでいう「情報」とは、あくまでそのできごとの起こりにくさ(確率)だけによって決まる数学的な量でしかなく、個人・社会における有用性とは無関係である。たとえば「自分が宝くじに当たった」と「見知らぬAさんが宝くじに当たった」は、前者の方が有用な情報に見えるが、両者の情報量は全く同じである(宝くじが当たる確率は所与条件一定のもとでは誰でも同じであるため)。
選択情報量(自己エントロピー)と平均情報量(エントロピー)
それぞれのできごとの情報量だけでなく、それらのできごとの情報量の平均値も情報量と呼ぶ。両者を区別する場合には、前者を選択情報量 (自己エントロピー とも)、後者を平均情報量 (エントロピー とも)と呼ぶ。
選択情報量
事象
E
{\displaystyle E}
が起こる確率を
P
(
E
)
{\displaystyle P(E)}
とするとき、
事象
E
{\displaystyle E}
が起こったことを知らされたとき受け取る(選択)情報量
I
(
E
)
{\displaystyle I(E)}
を
I
(
E
)
=
log
1
P
(
E
)
=
−
log
P
(
E
)
{\displaystyle I(E)=\log {\frac {1}{P(E)}}=-\log P(E)}
と定義する。
起こりにくい事象(=生起確率が低い事象)の情報量ほど、値が大きい。
上式中の対数 (
log
{\displaystyle \log }
) の底として何を選んでも、情報量の値が定数倍変わるだけなので、本質的な差はないものの、底としては2を選ぶことが多い。
底が2の場合、
1
/
2
n
{\displaystyle 1/2^{n}}
の確率で起こる事象の情報量は
n
{\displaystyle n}
である。
直観的意味
整数
u
{\displaystyle u}
に対し、
u
{\displaystyle u}
の対数
log
m
u
{\displaystyle \log _{m}u}
は
m
{\displaystyle m}
進法での
u
{\displaystyle u}
の桁数にほぼ等しい値を表す。したがって、確率
1
/
u
{\displaystyle 1/u}
で起こる事象の情報量は、ほぼ
u
{\displaystyle u}
の桁数になる。
情報量の加法性
AとBが独立な事象の場合、「AもBも起こる」という事象の情報量は、Aの情報量とBの情報量の和である。
情報量には加法性がある。例えば、52枚のトランプから無作為に1枚を取り出すという試行を考える。「取り出したカードはハートの4である」という事象の情報量は、前述の定義からlog52 であると分かる。ここで、「取り出したカードのスートはハートである」という事象と「取り出したカードの数字は4である」という事象の二つを考えると、前者の情報量はlog4、後者はlog13 である。この両者の和はlog4 + log13 = log(4×13) = log52 となり、「取り出したカードはハートの4である」という事象の情報量と等しい。これは直感的要請に合致する。
平均情報量(エントロピー)
Ω
{\displaystyle \Omega }
を、台が有限集合である確率空間とする。
Ω
{\displaystyle \Omega }
上の確率分布P が与えられたとき、各事象
A
∈
Ω
{\displaystyle A\in \Omega }
の選択情報量
−
log
P
(
A
)
{\displaystyle -\log P(A)}
の期待値
H
(
P
)
=
−
∑
A
∈
Ω
P
(
A
)
log
P
(
A
)
{\displaystyle H(P)=-\sum _{A\in \Omega }P(A)\log P(A)}
をP のエントロピー と呼ぶ(平均情報量 、シャノン情報量 、情報論のエントロピー とも)。
ただし、ここでP (A )=0のときは、
P
(
A
)
log
P
(
A
)
=
0
{\displaystyle P(A)\log P(A)=0}
とみなす。これは
lim
p
→
+
0
p
log
p
=
0
{\displaystyle \lim _{p\to +0}p\log p=0}
であることによる。
また有限集合U上の値を取る確率変数X が確率分布P に従う場合には、X のエントロピー をH (X )=H (P )によって定める。すなわち、
H
(
X
)
=
−
∑
x
∈
U
Pr
(
X
=
x
)
log
Pr
(
X
=
x
)
{\displaystyle H(X)=-\sum _{x\in U}\Pr(X=x)\log \Pr(X=x)}
。
エントロピーは常に非負の値(または無限大)を取る。
値x 、y がそれぞれ確率変数X 、Y に従う場合には、組
(
x
,
y
)
{\displaystyle (x,y)}
も確率変数とみなせる。この確率変数を
(
X
,
Y
)
{\displaystyle (X,Y)}
と書くことにすると、確率変数
(
X
,
Y
)
{\displaystyle (X,Y)}
のエントロピーは
H
(
X
,
Y
)
=
−
∑
x
,
y
Pr
(
X
=
x
,
Y
=
y
)
log
Pr
(
X
=
x
,
Y
=
y
)
{\displaystyle H(X,Y)=-\sum _{x,y}\Pr(X=x,Y=y)\log \Pr(X=x,Y=y)}
になる。これを結合エントロピーと呼ぶ。
X
,
Y
{\displaystyle X,Y}
が互いに独立な確率変数である場合には、
H
(
X
,
Y
)
{\displaystyle H(X,Y)}
は
H
(
X
)
+
H
(
Y
)
{\displaystyle H(X)+H(Y)}
に一致する。すなわち、全体の情報量
H
(
X
,
Y
)
{\displaystyle H(X,Y)}
は、それぞれの確率変数の情報量の和である。
しかし、X とY が互いに独立ではない場合は、
H
(
X
,
Y
)
{\displaystyle H(X,Y)}
と
H
(
X
)
+
H
(
Y
)
{\displaystyle H(X)+H(Y)}
は一致せず、前者より後者の方が大きい値になる。両者の情報量の差を相互情報量 と呼び、
I
(
X
,
Y
)
=
H
(
X
)
+
H
(
Y
)
−
H
(
X
,
Y
)
{\displaystyle I(X,Y)=H(X)+H(Y)-H(X,Y)}
で表す。相互情報量は常に非負の値になる。
事象B が生じているという条件下における事象Aの条件付き情報量 を
−
log
Pr
(
A
|
B
)
{\displaystyle -\log \Pr(A|B)}
によって定める。確率変数X が与えられたとき、事象「
X
=
x
{\displaystyle X=x}
」の条件付き情報量
−
log
Pr
(
X
=
x
|
B
)
{\displaystyle -\log \Pr(X=x|B)}
のx に関する平均値を条件付きエントロピー といい、
H
(
X
|
B
)
=
−
∑
x
Pr
(
X
=
x
|
B
)
log
Pr
(
X
=
x
|
B
)
{\displaystyle H(X|B)=-\sum _{x}\Pr(X=x|B)\log \Pr(X=x|B)}
で表す。
さらに確率変数Y が与えられたとき、事象「
Y
=
y
{\displaystyle Y=y}
」が生じているという条件下における事象「
X
=
x
{\displaystyle X=x}
」の条件付きエントロピー
H
(
X
|
Y
=
y
)
{\displaystyle H(X|Y=y)}
のy に関する平均値
H
(
X
|
Y
)
=
∑
y
Pr
(
Y
=
y
)
H
(
X
|
Y
=
y
)
{\displaystyle H(X|Y)=\sum _{y}\Pr(Y=y)H(X|Y=y)}
もやはり条件付きエントロピー と呼ぶ。
エントロピーの基本的性質
情報量は確率だけによって決まる。
情報量は非負の値または無限大を取る。
nビットのビット列の空間(情報源)から(一様ランダムとは限らない方法で)ランダムにビット列を選んだときのエントロピーは、n以下になる。エントロピーがnになる必要十分条件は、ビット列が一様ランダムに選ばれることである。
確率変数XとYが独立である必要十分条件は、
H
(
X
)
+
H
(
Y
)
=
H
(
X
,
Y
)
{\displaystyle H(X)+H(Y)=H(X,Y)}
が成立することである。
コイン投げの例
あるコインを投げたときに表が出る確率を
p
{\displaystyle p}
、裏が出る確率を
1
−
p
{\displaystyle 1-p}
とする。このコインを投げたときに得られる平均情報量(エントロピー)は、
H
(
X
)
=
−
p
log
p
−
(
1
−
p
)
log
(
1
−
p
)
{\displaystyle \left.H(X)=-p\log {p}-(1-p)\log {(1-p)}\right.}
である。
この関数
f
(
p
)
=
−
p
log
p
−
(
1
−
p
)
log
(
1
−
p
)
{\displaystyle f(p)=-p\log {p}-(1-p)\log {(1-p)}}
をエントロピー関数 と呼ぶ。
図を見ると分かるように、
p
=
0
{\displaystyle p=0}
と
p
=
1
{\displaystyle p=1}
では
H
{\displaystyle H}
はゼロである。つまり、コインを投げる前から裏または表が出ることが確実に分かっているときに得られる平均情報量は、ゼロである。
H
{\displaystyle H}
が最大になるのは
p
=
1
/
2
{\displaystyle p=1/2}
のときであり、一般にすべての事象(できごと)が等確率になるときにエントロピーが最大になる。
連続系のエントロピー
実数値を取る確率変数X の確率密度関数をp (x )とするとき、X のエントロピーを
h
(
X
)
=
−
∫
−
∞
∞
p
(
x
)
log
p
(
x
)
d
x
{\displaystyle h(X)=-\int _{-\infty }^{\infty }p(x)\log p(x)dx}
によって定義する。
X が有限集合に値を取る確率変数である場合には、X のシャノン情報量
H
(
X
)
{\displaystyle H(X)}
も定義できる。X がn 通りの値を取るとき、
H
(
X
)
{\displaystyle H(X)}
と
h
(
X
)
{\displaystyle h(X)}
は、
h
(
X
)
=
H
(
U
n
)
−
H
(
X
)
{\displaystyle h(X)=H(U_{n})-H(X)}
を満たす。
ただし、ここで
U
n
{\displaystyle U_{n}}
はn 元集合上の一様分布とする(すなわち
H
(
U
n
)
=
log
n
{\displaystyle H(U_{n})=\log n}
)。
Renyiエントロピー
Ω
{\displaystyle \Omega }
を、台が有限集合である確率空間とする。P を
Ω
{\displaystyle \Omega }
上の確率分布とし、
α
{\displaystyle \alpha }
を非負の実数とする。
α
≠
1
{\displaystyle \alpha \neq 1}
のとき、P のdegee
α
{\displaystyle \alpha }
のRenyiエントロピー を
H
α
(
P
)
=
log
(
∑
A
∈
Ω
P
(
A
)
α
)
1
−
α
{\displaystyle H_{\alpha }(P)={\frac {\log(\sum _{A\in \Omega }P(A)^{\alpha })}{1-\alpha }}}
によって定義する。
また、
α
=
1
,
∞
{\displaystyle \alpha =1,\infty }
の場合には、Renyiエントロピーを
{
H
1
(
P
)
=
lim
α
→
1
H
α
(
P
)
H
∞
(
P
)
=
lim
α
→
∞
H
α
(
P
)
{\displaystyle \left\{{\begin{array}{lll}H_{1}(P)&=\lim _{\alpha \to 1}&H_{\alpha }(P)\\H_{\infty }(P)&=\lim _{\alpha \to \infty }&H_{\alpha }(P)\end{array}}\right.}
によって定義する。
単にRenyiエントロピー と言った場合は
H
2
(
P
)
{\displaystyle H_{2}(P)}
を意味することも多い。
さらに、確率変数X が確率分布P に従うとき、
H
α
(
X
)
{\displaystyle H_{\alpha }(X)}
を
H
α
(
X
)
=
H
α
(
P
)
{\displaystyle H_{\alpha }(X)=H_{\alpha }(P)}
によって定義する。
Renyiエントロピーは以下の性質を満たす:
H
0
(
P
)
=
log
#
Ω
{\displaystyle H_{0}(P)=\log \#\Omega }
が成立する。
H
1
(
P
)
{\displaystyle H_{1}(P)}
はシャノン情報量
H
(
P
)
=
−
∑
A
∈
Ω
P
(
A
)
log
P
(
A
)
{\displaystyle H(P)=-\sum _{A\in \Omega }P(A)\log P(A)}
と一致する。
α
{\displaystyle \alpha }
が2以上の整数の場合には、
H
α
(
P
)
=
1
1
−
α
log
Pr
(
X
1
=
⋯
=
X
α
)
{\displaystyle H_{\alpha }(P)={\frac {1}{1-\alpha }}\log \Pr(X_{1}=\cdots =X_{\alpha })}
が成立する。ここで、
X
1
,
…
,
X
α
{\displaystyle X_{1},\ldots ,X_{\alpha }}
は確率分布
P
{\displaystyle P}
に従う独立同一分布であって、
Pr
(
X
1
=
⋯
=
X
α
)
{\displaystyle \Pr(X_{1}=\cdots =X_{\alpha })}
は
x
1
,
…
,
x
α
{\displaystyle x_{1},\ldots ,x_{\alpha }}
をそれぞれ
X
1
,
…
,
X
α
{\displaystyle X_{1},\ldots ,X_{\alpha }}
に従って選んだときに
x
1
=
⋯
=
x
α
{\displaystyle x_{1}=\cdots =x_{\alpha }}
が成立する確率とする。
H
∞
(
P
)
=
min
A
∈
Ω
{
−
log
P
(
A
)
}
{\displaystyle H_{\infty }(P)=\min _{A\in \Omega }\{-\log P(A)\}}
が成立する。この
H
∞
(
P
)
{\displaystyle H_{\infty }(P)}
をminエントロピー ともいう。
歴史
「エントロピー」の概念は1865年にルドルフ・クラウジウスがギリシャ語の「変換」を意味する言葉を語源として、熱力学における気体のある状態量として導入した。これは統計力学では微視的な状態数の対数に比例する量として表される。1929年にはレオ・シラードが、気体についての情報を観測者が獲得することと統計力学におけるエントロピーとの間に直接の関係があることを示し、現在 1 ビット(1 シャノン)と呼ぶ量が統計力学で k ln 2 に対応するという関係を導いていた[1] 。
現在の情報理論におけるエントロピーの直接の導入は1948年のクロード・シャノンによるもので、その論文『通信の数学的理論』でエントロピーの概念を情報理論に応用した。シャノン自身は熱統計力学でこの概念と関連する概念がすでに使われていることを知らずにこの定義に到達したが、その名称を考えていたとき同僚フォン・ノイマンが、熱統計力学のエントロピーに似ていることから示唆したもので、フォン・ノイマンは「統計エントロピーが何なのかを理解してる人は少ないから、議論になったら有利であろう」と語ったとされる[3] [4] 。しかしシャノンはフォン・ノイマンの影響を否定している[5] 。
なお、シャノン以前にもラルフ・ハートレーが1928年に、集合A に対して
log
#
A
{\displaystyle \log \#A}
という量を考察している(“
#
A
{\displaystyle \#A}
”はA の元数)。
log
#
A
{\displaystyle \log \#A}
はA 上の一様分布のエントロピーに一致する。現在では、
log
#
A
{\displaystyle \log \#A}
をA のハートレー・エントロピー と呼ぶ。
単位
情報量は本来無次元の量である。しかし、対数の底として何を用いたかによって値が異なるので,単位を付けて区別している。前述のように、情報量は確率の逆数の桁数 の期待値なので、単位も桁数のそれを流用する。この為、対数の底として2、e、10を選んだときの情報量の単位は、それぞれビット (bit)、ナット (nat)、ディット (dit)である。
また、今のところ主流ではないものの、1997年に日本工業規格 JIS X 0016:1997(これは国際規格 ISO/IEC 2382-16:1996と一致している)は、これらの量を表す単位を別に定めている(ノートも参照)。
対数の底と単位
底
通常の単位
JISおよびISOが定めた単位
備考
2
ビット (bit)
シャノン (shannon)
lb, 二進対数
e=2.718…
ナット (nat)
ナット (nat)
ln, 自然対数
10
ディット (dit)
ハートレー (hartley)
lg, 常用対数
単位「シャノン」、「ハートレー」の名称は、それぞれ情報量の概念を提案したクロード・シャノン、ラルフ・ハートレーにちなむ。
脚注
Shannon entropy calculator (English)
A Mathematical Theory of Communication Shannon 1948 (English)
^ Szilard, L. (1929) "Über die Entropieverminderung in einem Thermodynamischen System bei Eingriffen Intelligenter Wesen", Zeitschrift für Physik 53 :840–856
^ 『ファインマン計算機科学』 p. 96 ファインマンによる脚注*8で、「言い伝えによれば」と断りのうえでこの説を紹介している。
^ 韓太舜、小林欣吾『情報と符号の数理』
^ CLAUDE E. SHANNON: An Interview Conducted by Robert Price, 28 July 1982
参考文献
Cover, Thomas M.; Thomas, Joy A. (2006). Elements of information theory (Second ed.). John Wiley & Sons. ISBN 978-0-471-24195-9. MR 2239987. https://books.google.com/books?id=VWq5GG6ycxMC
関連項目
シャノンの定理(標本化定理とも)
データ量の比較
エントロピー
マクスウェルの悪魔
ハフマン符号
コルモゴロフ複雑性
ランダウアーの原理
交差エントロピー
結合エントロピー
量子エントロピー
外部リンク
典拠管理
BNE: XX535116
BNF: cb11985913j (データ)
GND: 4743861-7
LCCN: sh85044152
NDL: 01191172
確率論 確率の歴史
アンドレイ・コルモゴロフ
トーマス・ベイズ
アンドレイ・マルコフ
伊藤清
確率の定義
基礎概念
モデル 確率変数 確率分布
離散確率分布
連続確率分布
同時分布
周辺分布
条件付き確率分布
独立同分布
関数
確率質量関数
確率密度関数
累積分布関数
特性関数
用語
独立
期待値
モーメント
条件付き確率
条件付き期待値
確率の解釈
ベルトランの逆説
3囚人問題
モンティ・ホール問題
サンクトペテルブルクのパラドックス
合接の誤謬
ギャンブラーの誤謬
問題 法則・定理
ベイズの定理
大数の法則
中心極限定理
コルモゴロフの0-1法則
デ・フィネッティの定理
ウィーナー=ヒンチンの定理
測度論
ヴィタリの収束定理
優収束定理
ラプラス原理
スコロホッドの表現定理
ハーン=コルモゴロフの定理
確率微分方程式 確率過程
独立増分過程
定常過程
マルチンゲール
マルコフ過程(マルコフ性・マルコフ連鎖・マルコフ決定過程・部分観測マルコフ決定過程・マルコフ再生過程)
ウィーナー過程(ブラウン運動・幾何ブラウン運動・非整数ブラウン運動)
ベルヌーイ過程
ガウス過程
自己相似過程
経験過程
中華料理店過程
オルンシュタイン=ウーレンベック過程
情報量
最大エントロピー原理
交差エントロピー
結合エントロピー
カルバック・ライブラー情報量
相互情報量
応用
数理ファイナンス
ブラック–ショールズ方程式
確率的ボラティリティモデル
カテゴリ
データ圧縮方式 可逆
エントロピー符号
一進法
算術
Asymmetric numeral systems(英語版)
ゴロム
ハフマン
レンジ
シャノン
シャノン・ファノ
シャノン・ファノ・イライアス(英語版)
タンストール(英語版)
ユニバーサル(英語版)
指数ゴロム(英語版)
フィボナッチ(英語版)
ガンマ
レーベンシュタイン(英語版)
辞書式(英語版)
BPE
Deflate
Lempel-Ziv
LZ77
LZ78
LZFSE
LZH
LZJB(英語版)
LZMA
LZO
LZRW(英語版)
LZS(英語版)
LZSS
LZW
LZWL(英語版)
LZX
LZ4
ROLZ(英語版)
統計型(英語版)
Brotli
Zstandard
その他
BWT
CTW(英語版)
Delta
DMC(英語版)
MTF
PAQ
PPM
RLE
音声
理論
ビットレート
コンパンディング
畳み込み
ダイナミックレンジ
レイテンシ(英語版)
標本化定理
標本化
音質
音声符号化
サブバンド符号化
変換符号化
知覚符号化
コーデック(英語版)
A-law
μ-law
ACELP
ADPCM
CELP
DPCM
フーリエ変換
LPC
MDCT
音響心理学
WLPC
画像
理論
クロマサブサンプリング(英語版)
符号化ツリーユニット(英語版)
色空間
圧縮アーティファクト
解像度
マクロブロック(英語版)
ピクセル
PSNR
量子化(英語版)
標準テストイメージ(英語版)
手法
チェインコード(英語版)
DCT
EZW(英語版)
フラクタル
KLT(英語版)
ピラミッド(英語版)
RLE
SPIHT(英語版)
ウェーブレット
映像
理論
ビットレート
画面解像度
フレーム
フレームレート
インターレース
映像品質(英語版)
コーデック(英語版)
重複変換(英語版)
DCT
デブロッキングフィルタ(英語版)
フレーム間予測
理論
情報量
複雑性
非可逆
量子化
レート歪み(英語版)
冗長性
情報理論の年表(英語版)