男子大学生の日常

男子大学生の雑記ブログです

OLS・最尤法・ベイズ推定の関係性

この3つはどれも確率分布やモデルのパラメータをデータから推定する手法だ(確率分布は正規分布ポアソン分布などの一変数の確率を返すもの、モデルはGLMのような複数の変数の合成によって被説明変数の確率モデルのパラメータを規定するもの)。しつこいが、パラメータ自体の確率分布やモデルは研究者がアプリオリに決めるもので、「仮定」だ。

 

・OLS

最小二乗法(OLS)とは、実際のデータの値とモデルによって予測される値の差(誤差)を最小化するように、モデルのパラメータを点推定する方法である。回帰分析であれば、データから偏回帰係数の推定値が算出されるが、偏回帰係数の値と標準誤差があればt値が求まり、t値がt分布(大標本の場合は正規分布でも可)に従うことを利用して、検定を行ったり偏回帰係数の信頼区間を求めたりすることができる。誤差が正規分布に従うと仮定した場合のOLSは最尤法の一部である。

線形モデルで推定値を出す時に、計量社会学計量経済学の多くの分析ではOLS法が使用されるがそれはOLS推定量が不偏性・一致性・効率性を兼ね揃えたBLUE(最良線形不偏推定量)だからである。

よく分かっていないのだが、「パラメトリック検定は母集団が正規分布していると仮定」とか「誤差項が正規分布に従う必要がある」みたいな文章がたくさんあるのだけど、大標本の場合は中心極限定理でどんな分布から生まれたデータであっても標本平均は正規分布に従うことが証明されているのだから、そんな仮定いるのか?

 

・最尤法

最尤法は、データを生成する確率(尤度)を最大化するパラメータを点推定する方法である。データが十分に得られている場合は、これが一番単純で分かりやすくて良いと思う。モデルの評価指標としては、対数尤度があるが、過適合を防ぐためのペナルティ項を入れたAICとかの方が使われている気がする。事前分布を一様分布と仮定した時のMAP推定値と最尤推定値は同値になるので、MAP推定⊃最尤推定とみなせる。

ロジットモデルやプロビットモデル等の従属変数がカテゴリカルな場合はOLS法ではなく最尤法で推定するべき。

最尤推定量は、一致性・効率性・漸近正規性という望ましい性質を持ち、誤差が正規分布している場合にはOLS推定量と同値になるのでBLUEである。

 

ベイズ推定

ベイズの定理を用いて、事前分布と尤度(確率モデル)と周辺尤度から事後分布を求めるのがベイズ推定だ。周辺尤度を算出する時に、共役事前分布を用いれば解析的に解けなくもないが、パラメータが複数次元の場合には多重積分が必要になって解析的に解けない。その場合は、事後確率のオッズ使うことで分母を消し去るというMCMC法が役に立つ。

予測する時の事後分布の使い方にはいくつかの方法があって、事後分布の平均値であるEAP推定値を使う方法、事後分布の最頻値であるMAP推定値を使う方法、事後分布を丸ごと使うベイズ予測がある。

また補足だが、MAP推定やベイズ予測で事前分布のパラメータ(ハイパーパラメータ)を決める際に、事前知識から決定できない場合は、「事前分布の事前分布の…」というように問題を先送りにして、テキトーなところで一様分布とかを使うという階層ベイズモデルと、ハイパーパラメータからデータが生成される確率(周辺尤度)を最大化するハイパーパラメータを求めるという経験ベイズがあるらしい。後者は最尤推定に考え方が似ている。

モデルの評価指標としては、自由エネルギーがあるが、こちらも解析的に解けない算出できない場合があり、WBICやブリッジ・サンプリング等の手法が開発されている。 

 

ベイズ推定が最尤法より優れている点は主に2つあり、1つは事前分布を考慮できる点、もう1つは事後分布を丸ごと使って予測に活かせる点だと思われる(後者はベイズ予測だけが享受できるメリット)。上記の、最尤法⊂MAP推定⊂ベイズ予測という包含関係を考えれば、究極的にはベイズ予測だけ考えてればいいのかもしれない。

 

また、ベイズ推定の考え方を勉強したことで、モデルの作り方が若干理解できた。つまり、私たちの最終目標は被説明変数データを生成している元の確率分布を知ることであり、何らかの分布を仮定して、その分布のパラメータを線形結合や微分方程式の解などで表したりするわけだ。例えば、○○をYとし、Yが正規分布に従うと仮定して、そのパラメータμとσを何らかの式で表して…とモデルを作っていくわけだ。昔は曖昧に理解していた、「重回帰において誤差項とYが正規分布に従う」という仮定も、これでしっかり理解できた。

 

私は日頃RとPythonを使っているが、ベイズ予測をする場合、なぜかStanというプログラミングを用いる必要があるらしい。

社会学ベイズを使った研究は『理論と方法』にあったが、まだ読んでいない。理論はある程度理解したので、実際の研究事例を見て理解を深めていきたい。