出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2016/07/12 20:49:38」(JST)
頻度分析(ひんどぶんせき)とは、文章や会話中における各々の文字の頻出傾向の度合を分析することである。頻度解析とも。各々の言語の特性を知る上でも重要な分析である。初歩的なサイファー・単一換字式暗号などの解読にも用いられる。※暗号解読法としての頻度分析は「頻度分析 (暗号)」を参照。
英語においては、普通文ではe、t、a、o、i、nなどの順で頻出する文字として知られている。逆にj、k、q、x、zなどは頻出しない傾向がある。
以下に具体例を列挙する。英語版Wikipediaトップページが解析対象である。画像に含まれる文字以外を全て解析対象とした。タグ等は含まない。大文字小文字の区別はしていない。有効数字二桁以降切り捨て
英語に於ける頻度分析結果(5835文字中)
文字 | 回数 | 百分率(%) | 順位 |
---|---|---|---|
a | 543 | 9.30 | 3 |
b | 70 | 1.19 | 22 |
c | 212 | 3.63 | 11 |
d | 217 | 3.71 | 10 |
e | 666 | 11.41 | 1 |
f | 118 | 2.02 | 16 |
g | 110 | 1.88 | 17 |
h | 189 | 3.23 | 12 |
i | 550 | 9.42 | 2 |
j | 10 | 0.17 | 23 |
k | 81 | 1.38 | 20 |
l | 233 | 3.99 | 9 |
m | 145 | 2.48 | 14 |
文字 | 回数 | 百分率(%) | 順位 |
---|---|---|---|
n | 437 | 7.48 | 5 |
o | 398 | 6.82 | 7 |
p | 134 | 2.29 | 15 |
q | 10 | 0.17 | 23 |
r | 386 | 6.61 | 8 |
s | 410 | 7.02 | 6 |
t | 474 | 8.12 | 4 |
u | 179 | 3.06 | 13 |
v | 77 | 1.31 | 21 |
w | 85 | 1.45 | 19 |
x | 8 | 0.13 | 25 |
y | 89 | 1.52 | 18 |
z | 4 | 0.06 | 26 |
英語版Wikipediaトップページ 15:00, 7 March 2007 (UTC)より
母音は頻出する傾向にある。あまり使われない子音は殆ど登場しないのが図表からわかる。 単語的なレベルからみると、a,theなどの冠詞などが頻繁に登場する。of,to,inなども頻出する。このような文法的特性は日本語でも同じである。
単一換字式暗号を解読する際に使用される。頻出する文字、しない文字の文法的な特性などを高度に鑑みて解読していく。
しかしこれはあくまで統計的なことで、意図的にeが全く使われなかった小説、『消失』(ジョルジュ・ペレック著、ギルバート・アデア訳。約200ページ)が存在する。
全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.
リンク元 | 「frequency analysis」「frequency analyses」 |
拡張検索 | 「隣接塩基頻度分析法」 |
関連記事 | 「分析」「頻度」 |
.