出典(authority):フリー百科事典『ウィキペディア(Wikipedia)』「2015/09/15 21:03:15」(JST)
この記事は検証可能な参考文献や出典が全く示されていないか、不十分です。 出典を追加して記事の信頼性向上にご協力ください。(2013年10月) |
最小二乗法(さいしょうにじょうほう、さいしょうじじょうほう;最小自乗法とも書く、英: least squares method)は、測定で得られた数値の組を、適当なモデルから想定される1次関数、対数曲線など特定の関数を用いて近似するときに、想定する関数が測定値に対してよい近似となるように、残差の二乗和を最小とするような係数を決定する方法、あるいはそのような方法によって近似を行うことである。
1805年にアドリアン=マリ・ルジャンドルが出版したのが初出である。しかし、1809年にカール・フリードリヒ・ガウスが出版した際に1795年から最小二乗法を保持していたと主張したことで、最小二乗法の発明者が誰であるかについては長い間論争になっている。
最小二乗法では測定データy はモデル関数f (x )と誤差εの和で
と表せるとする。物理現象の測定データには、誤差が含まれ、それは系統誤差と偶然誤差を含んでいる。この内、偶然誤差は、測定における信号経路の微視的現象に由来するならば、正規分布であると期待されることが多い。また、社会調査などの誤差理由の特定が困難な場合でも誤差が正規分布になると期待する考え方もある。
誤差が正規分布に従わない場合、最小二乗法によって得られたモデル関数は尤もらしくないことに注意する必要がある。偶然誤差が正規分布していない場合、系統誤差が無視できない位大きくそれをモデル関数に含めていない場合、測定データに正規分布から大きく外れた外れ値を含む場合などが該当する。
上記を含め、最小二乗法の理論的基盤には次のような前提が設けられている[1]。
話を簡単にするため、測定値は x, y の二次元の平面に分布するものとし、想定される分布(モデル関数)が y = f(x) の形である場合を述べる。想定している関数 f は、既知の関数 g(x) の線型結合で表されていると仮定する。すなわち、
例えば、gk(x)=xk-1 は、多項式近似であり、特に m=2 の時は という直線による近似(線形回帰)になる。
今、測定で得られた、次のような数値の組の集合があるとする。
これら (x, y) の分布が、y = f(x) というモデル関数に従うと仮定した時、想定される理論値は (x1, f(x1)), (x2, f(x2)), ..., (xn, f(xn)) ということになり、実際の測定値との残差は、各 i につき |yi - f(xi)| ということになる。 この残差の大きさは、xy-平面上での (xi, yi) と (xi, f(xi)) との距離でもある。
ここで、理論値からの誤差の分散の推定値は残差の平方和
で与えられるから、J が最小になるように想定分布 f を(すなわち akを)、定めればよいということになる。
それには、上式は ak を変数とする関数と見なすことができるので、J を ak について偏微分したものをゼロと置く。こうして得られた m 個の連立方程式(正規方程式)を解き、ak を決定すればよい。
さらに簡単な例として、モデル関数を1次関数とし、
とおくと、a とb は次式で求められる。
当てはめたい関数 f は、
と表すことができる。上付き添字 T は転置行列を表す。最小にすべき関数 J は
と表される。ここにG は、 なる成分を持つn×m行列、、係数 である。
これの最小解は、を満たす上三角行列の計算を経て[4]、解を得ることができ、全体の計算量に無駄が少ない。下記の表式を用いるとが得られ、から係数解を求める[5]。
また前節で述べたように J をのそれぞれの成分で偏微分してゼロと置いた m 個の式(正規方程式)は行列を用いて、
と表される。これを正規方程式 (normal equation) と呼ぶ。この正規方程式を解けば係数解が求まる。
係数解の解法には以下のようないくつかの方法がある。
想定される分布が媒介変数 t を用いて (x, y) = (f(t), g(t)) の形(あるいは f, g は複数の媒介変数によって決まるとしても同様)であっても考察される。
すなわち、測定値 (xi, yi) がパラメータ ti に対する (f(ti), g(ti)) を理論値として近似されているものと考えるのである。
この場合、各点の理論値 (f(ti), g(ti)) と測定値 (xi, yi) の間に生じる残差は
である。故に、残差平方和は
となるから、この値が最小であるように、f, g を決定するのである。
このように、n 組の (x , y ) の測定値 (xi , yi ) (i = 1, 2, ... , n ) をn 組の (x1 , x2 , ... , xm ) の測定値 (x1i , x2i , ... , xmi ) (i = 1, 2, ... , n ) に拡張したものも考察することができる。
n 回の測定における誤差があらかじめ分かっている場合を考える。異なる測定方法で測定した複数のデータ列を結合する場合などでは、測定ごとに誤差が異なることはしばしばある。誤差が正規分布していると考え、その標準偏差 で、誤差の大きさを表す。すると、誤差が大きい測定より、誤差が小さい測定の結果により重みをつけて近似関数を与えるべきであるから、
を、最小にするように f を定める方がより正確な近似を与える。
毎回の測定が独立ならば、測定値の尤度は exp(-J') に比例する。そこで、上記の J' を最小にする f は、最尤推定値であるとも解釈できる。また、J' は自由度 n-m のカイ二乗分布に従うので、それを用いてモデル f の妥当性を検定することもできる。
毎回の測定誤差が同じ場合、J' を最小にするのは J を最小にするのと同じ意味になる。
もし、f が、ak の線型結合で表されないときは、正規方程式を用いた解法は使えず、反復解法を用いて数値的に ak の近似値を求める必要がある。例えば、ガウス・ニュートン法やLevenberg-Marquardt法(英語版)が用いられる。とくにLevenberg-Marquardt法は多くの多次元非線形関数でパラメータを発散させずに効率よく収束させる(探索する)方法として知られている。
前提条件の節で述べたように、測定データを最小二乗法によって近似する場合、外れ値または異常値が含まれていると極端に近似の尤もらしさが低下することがある。また、様々な要因によって異常値を含む測定はしばしば得られるものである。
誤差が正規分布から極端に外れた異常値を取り除くための方法として修正トンプソン-τ法が用いられる。
ウィキブックスに最小二乗法関連の解説書・教科書があります。 |
全文を閲覧するには購読必要です。 To read the full text you will need to subscribe.
リンク元 | 「LS」「least-squares analysis」「最小自乗」「リートベルト法」「least-squares method」 |
関連記事 | 「法」「最小」「二乗」「最小二乗」 |
.