rastudylife

機械学習や統計についての勉強ログ

はじパタからみる識別規則1(確率編)

訓練データから有効な特徴を抽出して,それが何であるかを判定するためには,規則が必要である.この識別規則は,何を基準として判定するかによって分類される.『はじめてのパターン認識』では,識別規則を以下の四種類に分類している.

(1)パターン空間に確率分布を仮定し,事後確率が最大のクラスに分類する
(2)入力ベクトル x と各クラスの代表ベクトルの距離を計算し,一番近い代表ベクトルのクラスに分類する
(3)関数 f(x)の正負や最大値でクラスを決定する
(4)識別規則の真意で振り分けていき決定木的にクラスを決定する

今回は(1)の確率の観点からの識別規則を勉強する.



はじパタ第3章内容
ベイズの定理を用いた識別

ベイズの識別規則では事後確率が最も大きなクラスに観測データを分類する.
www.rastudylife.site
以前のエントリーでベイズの定理については勉強していた.
以前,正規化定数と表現されていたf(x)ははじパタでは周辺化確率と表現されている.また,尤度/周辺確率 が修正項としてまとめてあり,事前確率が 尤度/周辺確率 の比で修正されて,事後確率が得られるとしている.機械学習的にはこうするほうがいいのかな?
観測データは,データ代入して尤度と事前確率の積の値が大きいクラスにデータを振り分けられる.これは次式のように表せられる.
識別クラス=arg \underset{i}{max} p(x|C_i)P(C_i) p(x|C_i)P(C_i)が最大となるiが識別クラス)
周辺確率はどのクラスにも共通なので識別規則には含まれず,尤度と事前確率の積の比較で識別クラスが決定される.つまり, p(x|C_i)P(C_i) > p(x|C_j)P(C_j)のとき識別クラスはC_i

  • 識別性能評価(誤り率とROC曲線)

クラスC_iC_j の識別境界は互いの事後確率が等しくなるところである.C_iに識別クラスを決定すべき時に誤ってC_jに識別してしまう確率(誤り率\epsilon)は事後確率の小さい方になる.
つまり,\epsilon(x)=min[P(C_1|x), P(C_2|x)] でベイズの識別規則は誤り率最小である.
ベイズの識別境界では,事後確率が等しいので誤り率は1/2となる.このような誤り率が大きい領域ではクラスの判断をしないことがあり,これをリジェクトという.誤り率は識別性能の一種の指標であるが,事前確率や尤度,識別境界の情報が必要であるが,これらの情報を必要としない性能評価法ににROC曲線がある.ROC曲線

  • 損失の加味

識別規則に,クラス識別を誤ったことによる重大なエラーを『損失』として導入することがある.C_jに識別すべきところをC_iと判断することによって被る損失をL_{ij}と表す.クラスの数がK個あると,L_{ij}を要素とするK×Kの行列ができ,これを損失行列という.観測データxをクラスC_iと判断した時に被る損失は r(C_i|x)=\Sigma_{k=1}^{K} L_{ik}P(C_k|x) となる.識別規則はこの損失の期待値が最小となることなので,識別クラス=arg\underset{i}{min}r(C_i|x)である.



はじパタ第4章内容
統計量から導出したパラメータを用いて学習データを確率モデルで表現する

  • 平均ベクトルと共分散行列

学習データの分布を表す統計量の代表例は,平均ベクトルと共分散行列である.
観測データ x={x_1,x_2,...x_N}とすると
平均ベクトル: \mu=\frac{1}{N}\sum_{i=1}^{N}x_i
共分散:\Sigma=Var{x}=E\{(x-\mu)(x-\mu)^T\}=(\sigma_{ij}) ( i=j の時分散,i\not=jの時共分散 )
共分散行列の各要素:\sigma_{ij}=E\{(x_i-\mu_i)(x_j-\mu_j)\}=\int\int(x_i-\mu_i)(x_j-\mu_j)p(x_i,x_j)dx_idx_j
i番目とj番目の特徴間の相関係数\rho_{ij}=\frac{\sigma_{ij}}{\sigma_i\sigma_j}

  • 標準化と無相関化と白色化

標準化:データxをz=\frac{x-\mu}{\sigma}に代入してzにすると,平均0,分散1のデータになり,測定単位の影響が取り除かれる.
無相関化:共分散行列を対角化して対角行列にすることで,行列の中の共分散の成分を0にする.相互相関が0になることで無相関化される.
白色化:対角化された後,固有値の分だけ特徴量の標準偏差に違いが残るので,特徴量の標準偏差を1に正規化し,中心化することで白色化される.

無相間化についてはここにもう少し書いていますが,ちゃんとは分かっていません.
www.rastudylife.site