パラメータのOLS推定について整理

現実の社会現象で機能していると考えられるメカニズムを数理モデルで表し、それを統計モデルに変換し、サンプルデータからそのパラメータを推定するのが計量分析である。

OLS推定が満たすべき仮定は、①iid　②外生性　③xとuの4次のモーメントが有限　がある。②が満たされた推定値は因果効果と見なして良いとされる。

サンプルデータから推定量を求めた時に、それを評価する基準が必要で、①不偏性　②一致性　③有効性　がある。また、漸近正規性を持たない推定量は区間推定や検定ができないので、その性質を持った推定量である必要がある。

上記のような望ましい推定量が手に入ったとして、終わりではない。なぜならサンプルデータは母集団データの一部であるため、偏ったサンプルがたまたま生まれている可能性も否定できないからだ（サイコロを10回投げて全て6が出る可能性もある）。そこで、n個のサンプルから一つ出てくる推定量が従う分布が分かれば、今回のサンプルデータから求める推定量がどれほど確率の低い値か評価できる。そして、あまりにも低確率（多くの場合5%）の場合は、その分布から出たものではないとみなすわけだ。ここで、推定量が従う分布は多くの場合正規分布である。ここで漸近正規性を満たす推定量である必要性が生まれるわけだ。

サンプルデータからt統計量を求め、t統計量は漸近正規性を持つため、そのt統計量が出てくる確率を求めることができる。もちろん、「真のパラメータの分布から生まれたサンプルの推定量なのにそこから生まれているはずがないと勘違いしてしまう」確率は5%ある（第一種の過誤）。

上記は検定の話で、区間推定する時は、t統計量が標準正規分布に従う式を変形して、パラメータが推定量と標準誤差から求められる値の範囲の中に95%の確率で入るという範囲（95%信頼区間）を導出することができる。95%というのは、n個のサンプルデータを100回取って範囲の値を求めた時に、95回はその範囲の中にパラメータが入っているという意味である。もちろん、今回のサンプルデータから求めた範囲がたまたまその5回に該当し、パラメータが範囲から出てしまっている可能性もある（5%の確率で）。

また、推定量の標準誤差を導出する時に必要なVの求め方には2通りあり、均一分散の場合のみ漸近正規性を持つものと、不均一分散の場合でも漸近正規性を持つものがある（毎回後者で良い気がする）。

均一分散を満たされると良いことと言えば、「均一分散」＋「uが正規分布に従っている」場合にt統計量が自由度N-2のt分布に従うということを使える点だろう（2つの仮定は通常のOLSの仮定よりも強い）。t統計量を標準正規分布に従わせる場合にはNが大きいことが必要になるが、この場合はNが小さくても対応できるというメリットがある（Nが100以上なら正規分布の方を使って良いらしい）。

また、OLS推定の③の仮定が満たされていない場合には、最小絶対偏差法（LAD）を使った方が良いらしい。

ここで、若干疑問だったのは、パラメータを生成する分布の仮定は考えなくて良いのかということ。パラメータで推定するのは基本的に「平均」のみだが、「分散」は求めなくて良いのか（正規分布から生成されていると仮定すれば正規分布のパラメータは平均と分散の2つだから、どちらも推定して初めて分布が完全再現できる）。ベイズの場合はパラメータの確率分布を導出するので、平均（EAP推定値）だけでなく分散を求めることもできる（しかも、今思えば、確率分布の形を仮定する必要がないのはかなりすごい）。

まあ、平均だけが分かれば良いことがほとんどだと思うので、分布を想定とかは考える必要がないかもしれない。

男子大学生の日常

男子大学生の雑記ブログです

パラメータのOLS推定について整理