rastudylife

機械学習や統計についての勉強ログ

ベイズの定理を使って事後分布の推定

データをもとに母数の分布を推定したい.

母数とは確率分布を特徴付ける定数のことである.

分布に関するベイズの定理は以下のように表せる. 

事後分布 = (尤度 × 事前分布)  /  正規化定数

この式は,データをx,母数を\thetaとしたとき,f(\theta|x)=\frac{f(x|\theta)f(\theta)}{f(x)}と表せる.

 

1. 事後分布f(\theta|x)

事後分布は,データを観察した後の母数の分布

2.尤度f(x|\theta)

データxを固定しておいて母数を動かし,尤度最大となる母数の値を探す.尤度を最大にする母数の値は,その値のもとで手元のデータが効率的に最も観測されやすいという意味を持つ.よって,その値は母数の推定値として利用できる.

3.事前分布f(\theta)

事前分布は,データを観察する前の母数の分布.

正規分布のように母数が複数ある場合は,同時事前分布として表せる.

f(\theta) = f(\mu,\sigma) = f(\mu) f(\sigma)

一般に公平性や客観性が求められるデータ分析においては,できるだけ偏りがない事前分布を採用するのが適切.連続一様分布はこの条件を満たす一例.

正規分布の事前分布に連続一様分布を設定した場合,正規分布の母数は,

f(\mu) = f(\mu|\alpha_\mu, \beta_\mu) = \frac{1}{\beta_\mu - \alpha_\mu}

f(\sigma) = f(\sigma|\alpha_\sigma, \beta_\sigma) = \frac{1}{\beta_\sigma - \alpha_\sigma} という事前分布を設定する.

4.正規化定数f(x)
ベイズの定理の分母.正規化とは確率分布の条件を満たすように,関数に定数をかけること.正規化定数は正規化のための定数.

  

ベイズの定理の中で母数に関する情報を含んだ部分をカーネルという.なので,今回の式でいうと,尤度と事前分布の積がカーネルで正規化定数はカーネルではない.
正規化定数を解析的に解こうとすると大変で,ベイズの定理に基づいて事後分布を出すことは難しかった.でも,MCMC(マルコフ連鎖モンテカルロ)法のおかげで正規化定数を計算せずに事後分布が出せるようになった.
MCMCは正規化定数は無視しておいて,事後分布に比例するp(Y|\theta)p(\theta)から乱数をたくさん発生させて事後分布の代わりとするアイデア

 現実のデータは多数のパラメータを扱うベイズ統計モデルが必要となり,このモデルの事後分布は多変量の確率分布となる.MCMCサンプリングはそういう時に便利.

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

はじめての 統計データ分析 ―ベイズ的〈ポストp値時代〉の統計学―

 
StanとRでベイズ統計モデリング (Wonderful R)