rastudylife

機械学習や統計についての勉強ログ

もっと詳しく一般化線形モデル(GLM)

前回のエントリーから引き続き勉強メモ.

libraryandarchives.hatenablog.com

前回のエントリーで,当てはまりの良いモデル(最大対数尤度logL^*)を採用するモデルとかいたが,例えば,パラメータがさらに増えて9個に増えた場合,そのままlog(\lambda_i)=\beta_1+\beta_2x_1+\beta_3x_2+.....+\beta_9x_8のような複雑なプロットを描く統計モデルを採用することになってしまう.

そこで,良いモデルの指標として『当てはまりの悪さ(逸脱度:D=-2logL^*)の低さ』を考慮する. 単に逸脱度が一番低くなるモデルを選ぶだけでは,結局パラメーターをできるだけ増やしたモデルを選ぶことになってしまうので,予測の良さも考慮したモデル選択基準AICD+2k(k:最尤推定したパラメータ数))を使用する.

予測が良いモデルとは平均対数尤度が高いモデルのことである.平均対数尤度は最大対数尤度から最大推定するパラメーターの個数を引いた数であることが導出されている.

よって平均対数尤度の推定量logL^*- kと表せられ,これに-2をかけると予測の悪さであるAICの式になる(式変形するとD+2kになる).このAICの小さいものが予測の悪さの低い,すなわち予測が良いモデルであると言える.

以上が良いモデルの条件として,単に当てはまりの良いモデルではなく,AICの小さいものを選ぶ理由である.

 AICを用いてモデル選択をする他に,尤度比検定を用いたモデルの比較方法もある.

 データがポアソン分布以外の確率分布の場合にもGLMを使った表現が可能である.例えば,ロジスティック回帰は二項分布を使ったGLMの一つでロジットリンク関数を使用する.