-
$\displaystyle p(x)=\mathcal{N}(x:|:\mu,\sigma^{2}) = \mathcal{N}(x:|:\mu,\lambda^{-1})$ とおくとき,-
最尤推定
$\displaystyle\mu_{\mathrm{ML}} = \frac{1}{N}\sum_{n=1}^{N}x_{n};;;\left(\mathbb{E}\left[\mu_{\mathrm{ML}}\right]=\mu\right)$ - $\displaystyle\sigma^{2}{\mathrm{ML}} = \frac{1}{N}\sum{n=1}^{N}(x_{n}-\mu_{\mathrm{ML}})^{2};;;\left(\mathbb{E}\left[\sigma^{2}_{\mathrm{ML}}\right]=\frac{N-1}{N}\sigma^{2}\right)$
-
精度は既知で平均が未知のときのベイズ推論
- 平均の事前分布:
$p(\mu)=\mathcal{N}\left(\mu:|:\mu_{0},\lambda_{0}^{-1}\right)$ - 平均の事後分布:
$\displaystyle p(\mu|\mathbf{X})=\mathcal{N}\left(\mu:\left|:\frac{N\lambda_{0}^{-1}\mu_{\mathrm{ML}}+\lambda^{-1}\mu_{0}}{N\lambda_{0}^{-1}+\lambda^{-1}},::\left(N\lambda+\lambda_{0}\right)^{-1}\right.\right)$ - 平均の点推定値:
$\displaystyle\mu_{\mathrm{MAP}}=\frac{N\lambda_{0}^{-1}\mu_{\mathrm{ML}}+\lambda^{-1}\mu_{0}}{N\lambda_{0}^{-1}+\lambda^{-1}}$
- 平均の事前分布:
-
平均は既知で精度が未知のときのベイズ推論
- 精度の事前分布:
$p(\lambda)=\mathrm{Gam}\left(\lambda,|,a_{0},b_{0}\right)$ (ガンマ分布) - 精度の事後分布:
$\displaystyle p(\lambda|\mathbf{X})=\mathrm{Gam}\left(\lambda,\left|,a_{0}+\frac{N}{2},:: b_{0}+\frac{1}{2}\sigma^{2}_{\mathrm{ML}}\right.\right)$ - 精度の点推定値:
$\displaystyle \lambda_{\mathrm{MAP}}=\frac{a_{0}+\frac{N}{2}-1}{b_{0}+\frac{1}{2}\sigma^{2}_{\mathrm{ML}}}$
- 精度の事前分布:
-
平均も精度も未知のときのベイズ推論
- 平均と精度の事前分布:
$p(\mu,\lambda,|,\mu_{0},\beta,a_{0},b_{0})=\mathcal{N}\left(\mu:|:\mu_{0},(\beta\lambda)^{-1}\right)\mathrm{Gam}\left(\lambda,|,a_{0},b_{0}\right)$ (ガウス-ガンマ分布) - 平均と精度の事後分布: $\displaystyle p(\mu,\lambda,|,\mathbf{X},\mu_{0},\beta,a_{0},b_{0})=\mathcal{N}\left(\mu:\left|:\mu_{0}+\frac{N}{\beta}\mu_{\mathrm{ML}},:(\beta\lambda)^{-1}\right.\right)\mathrm{Gam}\left(\lambda,\left|,a_{0}+\frac{N}{2},:b_{0}+\frac{N}{2}\sigma^{2}{\mathrm{ML}}+N\mu{\mathrm{ML}}^{2}\right.\right)$
- 平均と精度の事前分布:
-
$\displaystyle p(\mathbf{x})=\mathcal{N}(\mathbf{x}:|:\boldsymbol{\mu},\Sigma)=\frac{1}{(2\pi|\Sigma|)^{\frac{D}{2}}}\exp\left(-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{T}\Sigma^{-1}(\mathbf{x}-\boldsymbol{\mu})\right)$
-
$\Sigma$ は対称行列なので正規直交系をなすような固有ベクトルをとれる. -
$\Sigma$ の固有値を$\lambda_{1}, ...,\lambda_{D}$ とし, 固有ベクトルを正規直交系をなすように $\mathbf{u}{1}, ...,\mathbf{u}{D}$ ととると $\displaystyle \Sigma=\sum_{i=1}^{D}\lambda_{i}\mathbf{u}{i}\mathbf{u}{i}^{T},:::\Sigma^{-1}=\sum_{i=1}^{D}\frac{1}{\lambda_{i}}\mathbf{u}{i}\mathbf{u}{i}^{T}$- このガウス分布の密度の等高面は, 中心が
$\boldsymbol{\mu}$ の超単位球面を $\mathbf{u}{i}$ 方向に$\displaystyle\frac{1}{\sqrt{\lambda{i}}}$倍に引き伸ばしたもの
- このガウス分布の密度の等高面は, 中心が
$\mathbb{E}\left[\mathbf{x}\right] = \boldsymbol{\mu},:::\mathbb{E}\left[\mathbf{x}\mathbf{x}^{T}\right] = \boldsymbol{\mu}\boldsymbol{\mu}^{T}+\Sigma$
-
$\displaystyle p\left(\left( \begin{array}{c} \mathbf{x}{a}\ \mathbf{x}{b}\ \end{array} \right)\right)=\mathcal{N}\left(\left( \begin{array}{c} \mathbf{x}{a}\ \mathbf{x}{b}\ \end{array} \right) :\left|:\left( \begin{array}{c}
\boldsymbol{\mu}{a}\ \boldsymbol{\mu}{b}\ \end{array}
\right) , \left( \begin{array}{cc} \Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb} \
\end{array}
\right) \right.\right),::: \left( \begin{array}{cc} \Sigma_{aa} & \Sigma_{ab} \ \Sigma_{ba} & \Sigma_{bb} \
\end{array}\right)\left( \begin{array}{cc} \Lambda_{aa} & \Lambda_{ab} \ \Lambda_{ba} & \Lambda_{bb} \
\end{array}
\right)^{-1} $ とする.- $\mathbf{x}{b}$ についての条件付きガウス分布: $\displaystyle p(\mathbf{x}{a}:|:\mathbf{x}{b}) = \mathcal{N}\left(\mathbf{x}{a}:|:\boldsymbol{\mu}{a}-\Lambda{aa}^{-1}\Lambda_{ab}(\mathbf{x}{b}-\boldsymbol{\mu}{b}),:\Lambda_{aa}^{-1}\right)$
- $\mathbf{x}{b}$ について周辺化した分布: $\displaystyle p(\mathbf{x}{a}) = \mathcal{N}\left(\mathbf{x}{a}:|:\boldsymbol{\mu}{a},:\Sigma_{aa}\right)$
-
$\displaystyle p(\mathbf{x})=\mathcal{N}(\mathbf{x}:|:\boldsymbol{\mu},\Lambda^{-1}),::: p(\mathbf{y}|\mathbf{x})=\mathcal{N}(\mathbf{y}:|:\mathbf{A}\mathbf{x}+\mathbf{b},\mathbf{L}^{-1}) $ とおくとき,- 同時分布: $\displaystyle p\left(\left(
\begin{array}{c}
\mathbf{x}\
\mathbf{y}\
\end{array}
\right)\right)=\mathcal{N}\left(\left(
\begin{array}{c}
\mathbf{x}\
\mathbf{y}\
\end{array}
\right)
:\left|:\left(
\begin{array}{c}
\boldsymbol{\mu}\ \mathbf{A}\boldsymbol{\mu}+\mathbf{b}\ \end{array}
\right) , \left( \begin{array}{cc} \Lambda^{-1} & \Lambda^{-1}\mathbf{A}^{T} \ \mathbf{A}\Lambda^{-1} & \mathbf{L}^{-1}+\mathbf{A}\Lambda^{-1}\mathbf{A}^{T} \
\end{array}
\right) \right.\right) $- ただし $
\displaystyle
\left(
\begin{array}{cc}
\Lambda^{-1} & \Lambda^{-1}\mathbf{A}^{T} \
\mathbf{A}\Lambda^{-1} & \mathbf{L}^{-1}+\mathbf{A}\Lambda^{-1}\mathbf{A}^{T} \
\end{array}
\right) = \left( \begin{array}{cc} \Lambda+\mathbf{A}^{T}\mathbf{L}\mathbf{A} & -\mathbf{A}^{T}\mathbf{L} \ -\mathbf{L}\mathbf{A} & \mathbf{L} \
\end{array}
\right)^{-1} $
- ただし $
\displaystyle
\left(
\begin{array}{cc}
\Lambda^{-1} & \Lambda^{-1}\mathbf{A}^{T} \
\mathbf{A}\Lambda^{-1} & \mathbf{L}^{-1}+\mathbf{A}\Lambda^{-1}\mathbf{A}^{T} \
- 周辺分布:
$\displaystyle p(\mathbf{y})=\mathcal{N}(\mathbf{y}:|:\mathbf{A}\boldsymbol{\mu}+\mathbf{b},::\mathbf{L}^{-1}+\mathbf{A}\Lambda^{-1}\mathbf{A}^{T})$ - 条件付き分布:
$\displaystyle p(\mathbf{x}|\mathbf{y})=\mathcal{N}(\mathbf{x}:|:(\Lambda+\mathbf{A}^{T}\mathbf{L}\mathbf{A})^{-1}(\mathbf{A}^{T}\mathbf{L}(\mathbf{y}-\mathbf{b})+\Lambda\boldsymbol{\mu}),::(\Lambda+\mathbf{A}^{T}\mathbf{L}\mathbf{A})^{-1})$
- 同時分布: $\displaystyle p\left(\left(
\begin{array}{c}
\mathbf{x}\
\mathbf{y}\
\end{array}
\right)\right)=\mathcal{N}\left(\left(
\begin{array}{c}
\mathbf{x}\
\mathbf{y}\
\end{array}
\right)
:\left|:\left(
\begin{array}{c}
-
$\displaystyle p(\mathbf{x})=\mathcal{N}(\mathbf{x}:|:\boldsymbol{\mu},\Sigma) = \mathcal{N}(\mathbf{x}:|:\boldsymbol{\mu},\Lambda^{-1})$ とおくとき,-
最尤推定
- $\displaystyle\boldsymbol{\mu}{\mathrm{ML}} = \frac{1}{N}\sum{n=1}^{N}\mathbf{x}{n};;;\left(\mathbb{E}\left[\boldsymbol{\mu}{\mathrm{ML}}\right]=\boldsymbol{\mu}\right)$
- $\displaystyle\boldsymbol{\Sigma}{\mathrm{ML}} = \frac{1}{N}\sum{n=1}^{N}(\mathbf{x}{n}-\boldsymbol{\mu}{\mathrm{ML}})(\mathbf{x}{n}-\boldsymbol{\mu}{\mathrm{ML}})^{T};;;\left(\mathbb{E}\left[\boldsymbol{\Sigma}_{\mathrm{ML}}\right]=\frac{N-1}{N}\boldsymbol{\Sigma}\right)$
-
精度行列は既知で平均が未知のときのベイズ推論
- 平均の事前分布: $p(\boldsymbol{\mu})=\mathcal{N}\left(\boldsymbol{\mu}:|:\boldsymbol{\mu}{0},\boldsymbol{\Lambda}{0}^{-1}\right)$
- 平均の事後分布: $p(\boldsymbol{\mu}|\mathbf{X})=\mathcal{N}\left(\boldsymbol{\mu}:|:\left(N\boldsymbol{\Lambda}+\boldsymbol{\Lambda}{0}\right)^{-1}\left(N\boldsymbol{\Lambda}\boldsymbol{\mu}{\mathrm{ML}}+\boldsymbol{\Lambda}{0}\boldsymbol{\mu}{0}\right),:\left(N\boldsymbol{\Lambda}+\boldsymbol{\Lambda}_{0}\right)^{-1}\right)$
- 平均の点推定値: $\boldsymbol{\mu}{\mathrm{MAP}}=\left(N\boldsymbol{\Lambda}+\boldsymbol{\Lambda}{0}\right)^{-1}\left(N\boldsymbol{\Lambda}\boldsymbol{\mu}{\mathrm{ML}}+\boldsymbol{\Lambda}{0}\boldsymbol{\mu}_{0}\right)$
-
平均は既知で精度行列が未知のときのベイズ推論
- 精度行列の事前分布:
$p(\boldsymbol{\Lambda})=\mathcal{W}\left(\boldsymbol{\Lambda}:|:\mathbf{W},\nu\right)$ (ウィシャート分布) - 精度行列の事後分布: $\displaystyle p(\boldsymbol{\Lambda}|\mathbf{X})=\mathcal{W}\left(\boldsymbol{\Lambda}:\left|:\left(\mathbf{W}^{-1}+\sum_{n=1}^{N}(\mathbf{x}{n}-\boldsymbol{\mu}{\mathrm{ML}})(\mathbf{x}{n}-\boldsymbol{\mu}{\mathrm{ML}})^{T}\right)^{-1},::\nu+N\right.\right)$
- 精度行列の事前分布:
-
平均も精度行列も未知のときのベイズ推論
- 平均と精度行列の事前分布: $p(\boldsymbol{\mu},\boldsymbol{\Lambda},|,\boldsymbol{\mu}{0},\beta,\mathbf{W},\nu)=\mathcal{N}\left(\boldsymbol{\mu}:|:\boldsymbol{\mu}{0},(\beta\boldsymbol{\Lambda})^{-1}\right)\mathcal{W}\left(\boldsymbol{\Lambda}:|:\mathbf{W},\nu\right)$ (ガウス-ウィシャート分布)
-
-
$y=f(\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x}))$ とおいて,$\mathbf{w}$ を最適化する.$f$ は活性化関数.-
$f$ は線形でも非線形でもよい. - 基底関数
$\boldsymbol{\phi}$ はあらかじめ決めておき, 動かさずに固定する.
-
- 二乗和誤差関数
$\displaystyle E(W)=\frac{1}{2}\mathrm{Tr}{(XW-T)^{T}(XW-T)}$ を最小化する. - 最適解は
$W=(X^{T}X)^{-1}X^{T}T = X^{\dagger}T$ -
$W\mathbf{x}\ge0$ のとき$C_{1}$,$W\mathbf{x}<0$ のとき$C_{0}$と判定する.- あまりうまくいかない
- そもそも最小二乗法とは目的変数の条件付き確率分布にガウス分布を仮定したときの最尤推定
- ここでは目的変数は二値変数であり, ガウス分布とはかけ離れているので当然のこと
- フィッシャーの判別規準を最大化する.
- 最適解は $\mathbf{w}\propto (\mathbf{m}{1}-\mathbf{m}{0})$
-
$\mathbf{w}^{T}\mathbf{x}\ge -w_{0}$ のとき$C_{1}$,$\mathbf{w}^{T}\mathbf{x}<-w_{0}$ のとき$C_{0}$と判定する.- しきい値$w_{0}$は$p(y|C_{k})$をモデル化して最尤推定などで求める
目標値が
-
$y=f(\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x}))$ とおいて,$\mathbf{w}$ を最適化する.$f$ は活性化関数.-
$f$ には非線形なものをえらぶ. - 基底関数
$\boldsymbol{\phi}$ はあらかじめ決めておき, 動かさずに固定する.
-
-
$f$ はロジスティックシグモイド. 理由は誤差関数の勾配が簡潔に書けるため(正準連結関数). - 最尤推定する場合の誤差関数(負の対数尤度比)はcross-entropy:
$\displaystyle E(\mathbf{w})=-\sum_{n=1}^{N}\left(t_{n}\ln y_{n}+(1-t_{n})\ln(1-y_{n})\right)$ - この
$E(\mathbf{w})$ は解析的には最小化できない(逐次的に小さくするしかない). -
$E(\mathbf{w})$ の勾配は$\displaystyle\nabla_{\mathbf{w}}E(\mathbf{w})=\sum_{n=1}^{N}(y_{n}-t_{n})\boldsymbol{\phi}$ - ニュートン・ラフソン法によって$\mathbf{w}$を更新する方法は
$\mathbf{w}^{\mathrm{new}}=\mathbf{w}^{\mathrm{old}}-H^{-1}\nabla_{\mathbf{w}}E(\mathbf{w})=(\Phi^{T}R\Phi)^{-1}\Phi^{T}R\mathbf{z}$ -
$\Phi$ は $\boldsymbol{\phi}{n}^{T}$ を行ベクトルにもつ$N\times D$行列, $R$は $R{nn}=y_{n}(1-y_{n})$ なる対角行列 -
$\mathbf{z}$ は$N$ 次元ベクトルで$\mathbf{z}=\Phi \mathbf{w}^{\mathrm{old}} - R^{-1}(\textsf{y}-\textsf{t})$
-
- 実際には正則化項を追加しないと過学習するので注意.
- この
-
$f$ はロジスティックシグモイド. - 理由は
$\displaystyle p(t=1|\mathbf{x})=\displaystyle p(C_{1}|\mathbf{x})=\frac{1}{1+\displaystyle\frac{p(\mathbf{x}|C_{1})p(C_{1})}{p(\mathbf{x}|C_{0})p(C_{0})}}=\sigma(a),::::a=\ln\frac{p(\mathbf{x}|C_{1})p(C_{1})}{p(\mathbf{x}|C_{0})p(C_{0})}$ とおけるため. -
$a$ を構成する事前確率を推定して線形モデルに書き直せばよい.
-
一般に
$p(\mathbf{x}|C_{k})$ が正準形指数型分布族のメンバー$(p(\mathbf{x}|\boldsymbol\lambda_{k})=h(\mathbf{x})g(\boldsymbol\lambda_{k})\exp(\boldsymbol\lambda_{k}^{T}\mathbf{x}))$ であるとき-
$s$ をクラス間で共有された尺度パラメーターとすると$a=\displaystyle\frac{1}{s}(\boldsymbol\lambda_{1}-\boldsymbol\lambda_{0})^{T}\mathbf{x}+\ln\frac{g(\boldsymbol\lambda_{1})p(C_{1})}{g(\boldsymbol\lambda_{0})p(C_{0})}$ -
つまり
$\displaystyle\mathbf{w} = \displaystyle\frac{1}{s}(\boldsymbol\lambda_{1}-\boldsymbol\lambda_{0}),:::: w_{0}=\ln\frac{g(\boldsymbol\lambda_{1})p(C_{1})}{g(\boldsymbol\lambda_{0})p(C_{0})}$ - あとは
$\boldsymbol\lambda_{1},:\boldsymbol\lambda_{0},:p(C_{1}),:p(C_{0})$ を推定すればよい
- あとは
-
-
とくに
$p(\mathbf{x}|C_{k})$ がガウス分布$\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}_{k},\Sigma)$ のとき- $\displaystyle a=\left(\Sigma^{-1}(\boldsymbol{\mu}{1}-\boldsymbol{\mu}{0})\right)^{T}\mathbf{x}-\frac{1}{2}\left( \boldsymbol{\mu}{1}^{T}\Sigma^{-1}\boldsymbol{\mu}{1}-\boldsymbol{\mu}{0}^{T}\Sigma^{-1}\boldsymbol{\mu}{0} \right)
\ln \frac{p(C_{1})}{p(C_{0})}$
- つまり $\displaystyle\mathbf{w} = \Sigma^{-1}(\boldsymbol{\mu}_{1}-\boldsymbol{\mu}_{0}),\:\:\:\:
w_{0} = -\frac{1}{2}\left( \boldsymbol{\mu}{1}^{T}\Sigma^{-1}\boldsymbol{\mu}{1}-\boldsymbol{\mu}{0}^{T}\Sigma^{-1}\boldsymbol{\mu}{0} \right) + \ln \frac{p(C_{1})}{p(C_{0})}$
- 最尤推定解は $\displaystyle p(C_{k})=\frac{N_{k}}{N},\:\:\:\boldsymbol{\mu}_{k}=\frac{1}{N_{k}}\sum_{n=1}^{N}t_{n}\mathbf{x}_{k},\:\:\:\Sigma=\frac{1}{N}\sum_{k}\sum_{n\in C_{k}}(\mathbf{x}_{k}-\boldsymbol{\mu}_{k})(\mathbf{x}_{k}-\boldsymbol{\mu}_{k})^{T}$
- MAP推定解は $\displaystyle p(C_{k})=\frac{N_{k}(N_{k}+1)}{N(N+1)}$
- とくに
$p(\mathbf{x}|C_{k})$ がガウス分布であり, しかも各成分が独立であるとき $\mathcal{N}(\mathbf{x}|\boldsymbol{\mu}{k},\Sigma), ::\sigma{ij}=0 :\mathrm{for}: i\ne j$
👉sklearn.naive_bayes.GaussianNB
-
特徴値$x_{i}$が$(0,1)$の離散値をとり,
$i\ne j$ に対して$x_{i},x_{j}$が独立なとき$\displaystyle \left( p(\mathbf{x}|C_{k})=\prod_{i=1}^{D} \mu_{ki}^{x_{i}}(1-\mu_{ki})^{1-x_{i}}\right)$
👉sklearn.naive_bayes.BernoulliNB
$\displaystyle a = \sum_{i=1}^{D}\ln\frac{\mu_{1i}(1-\mu_{0i})}{\mu_{0i}(1-\mu_{1i})}x_{i}+\sum_{i=1}^{D}\ln\frac{1-\mu_{1i}}{1-\mu_{0i}}+\ln\frac{p(C_{1})}{p(C_{0})}$ - つまり
$\displaystyle\mathbf{w} = \biggl{\ln\frac{\mu_{1i}(1-\mu_{0i})}{\mu_{0i}(1-\mu_{1i})}\biggr},::::w_{0}=\sum_{i=1}^{D}\ln\frac{1-\mu_{1i}}{1-\mu_{0i}}+\ln\frac{p(C_{1})}{p(C_{0})}$ - 最尤推定解は
$\displaystyle p(C_{k})=\frac{N_{k}}{N},::::\mu_{ki}=\frac{N_{ki}}{N_{k}}$ - MAP推定解は
$\displaystyle p(C_{k})=\frac{N_{k}(N_{k}+1)}{N(N+1)},::::\mu_{ki}=\frac{N_{ki}(N_{ki}+1)}{N_{k}(N_{k}+1)}$
- 最尤推定解は
-
特徴値$x_{i}$が比例尺度であって, 0以上の整数の離散値をとり,
$i\ne j$ に対して$x_{i},x_{j}$が独立なとき
👉sklearn.naive_bayes.MultinomialNB
,sklearn.naive_bayes.ComplementNB
-
特徴値$x_{i}$が$M_{i}$次元のone-hot vector $\boldsymbol{\phi}{i}$で表現でき, $i\ne j$に対して$x{i},x_{j}$が独立なとき
$\displaystyle \left( p(\mathbf{x}|C_{k})=\prod_{i=1}^{D}\prod_{j=1}^{M_{i}} \mu_{kij}^{\phi_{ij}} \right)$ - $\displaystyle a = \sum_{i=1}^{D}\sum_{j=1}^{M_{i}}\ln\frac{\mu_{1ij}}{\mu_{0ij}}\phi_{ij}+\ln\frac{p(C_{1})}{p(C_{0})} = \sum_{i=1}^{D}\mathbf{m}{i}^{T}\boldsymbol{\phi}{i}+\ln\frac{p(C_{1})}{p(C_{0})}::::\left(\mathbf{m}{i}=\biggl{ \ln\frac{\mu{1ij}}{\mu_{0ij}}\biggr}\right)$
- つまり $\displaystyle\mathbf{w} = \biggl{\mathbf{m}{i}\biggr},::::w{0}=\ln\frac{p(C_{1})}{p(C_{0})}$
- 最尤推定解は
$\displaystyle p(C_{k})=\frac{N_{k}}{N},::::\mu_{kij}=\frac{N_{kij}}{N_{ki}}$ - MAP推定解は
$\displaystyle p(C_{k})=\frac{N_{k}(N_{k}+1)}{N(N+1)},::::\mu_{kij}=\frac{N_{kij}(N_{kij}+1)}{N_{ki}(N_{ki}+1)}$
- 最尤推定解は
-
$y=f(\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x}))$ とおいて,$\mathbf{w}$ と$\boldsymbol{\phi}$を最適化する(基底関数も動かす).$f$ は非線形活性化関数.
目標値が
- 活性化関数をロジスティックシグモイドから
$\tanh$ に変更する.
-
$y=\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x})$ とおいて,$\mathbf{w}$ を最適化する.- 基底関数
$\boldsymbol{\phi}$ はあらかじめ決めておき, 動かさずに固定する. - 基底関数を
$\boldsymbol{\phi}_{j}(\mathbf{x})=x^{j}$ とすれば多項式フィッテイングとなる.
- 基底関数
- 二乗和誤差関数
$\displaystyle E(\mathbf{w})=\frac{1}{2}\sum_{n=1}^{N}(t_{n}-\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x}))^{2}$ を最小化する. - 最適解は
$\mathbf{w}=\Phi^{\dagger}\textsf{t}$ - 予測値は
$t=(\Phi^{\dagger}\textsf{t})^{T}\mathbf{x}$ -
$\Phi^{\dagger}$ は$\Phi$ のムーア・ペンローズ擬似逆行列で,$\Phi^{\dagger}=(\Phi^{T}\Phi)^{-1}\Phi^{T}$ -
$\textsf{t}$ は$N$ 次元ベクトルで,$\textsf{t}=(t_{1} ... t_{n})^{T}$
-
- 目標値
$t$ にガウスノイズを仮定する$\displaystyle \left(t=\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x})+\epsilon,;;p(\epsilon)=\mathcal{N}(\epsilon|0,\beta^{-1})\right)$ . - 次の(1)(2)の結論は同じ:
- (1) 最尤推定する.
- (2) 二乗和誤差関数
$\displaystyle E(\mathbf{w})=\frac{1}{2}\sum_{n=1}^{N}(t_{n}-\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x}))^{2}$ を最小化する.
- 最適解は $\displaystyle\mathbf{w}{\mathrm{ML}}=\Phi^{\dagger}\textsf{t},::::\beta^{-1}{\mathrm{ML}}=\frac{1}{N}\sum_{n=1}^{N}(t_{n}-\mathbf{w}^{T}{\mathrm{ML}}\boldsymbol{\phi}(\mathbf{x}))^{2}=\frac{1}{N}\sum{n=1}^{N}(t_{n}-(\Phi^{\dagger}\textsf{t})^{T}\mathbf{x})^{2}$
- 予測分布は $\displaystyle p(t|\mathbf{x},\mathbf{w}{\mathrm{ML}},\beta^{-1}{\mathrm{ML}})=\mathcal{N}(t|w_{\mathrm{ML}}^{T}\mathbf{x},\beta^{-1}{\mathrm{ML}}) = \mathcal{N}\left(t:\left|:(\Phi^{\dagger}\textsf{t})^{T}\mathbf{x}, \frac{1}{N}\sum{n=1}^{N}(t_{n}-(\Phi^{\dagger}\textsf{t})^{T}\mathbf{x})^{2}\right.\right)$
- 回帰関数は
$(\Phi^{\dagger}\textsf{t})^{T}\mathbf{x}=\mathbb{E}_{t}\left[t|\mathbf{x}\right]$ をみたす.-
$\Phi^{\dagger}$ は$\Phi$ のムーア・ペンローズ擬似逆行列で,$\Phi^{\dagger}=(\Phi^{T}\Phi)^{-1}\Phi^{T}$ -
$\textsf{t}$ は$N$ 次元ベクトルで,$\textsf{t}=(t_{1} ... t_{n})^{T}$ -
$\beta^{-1}_{\mathrm{ML}}$ は回帰関数まわりでの残差分散となっている.
-
- 目標値
$t$ にガウスノイズを仮定する$\displaystyle \left(t=\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x})+\epsilon,;;p(\epsilon)=\mathcal{N}(\epsilon|0,\beta^{-1})\right)$ . - 次の(1)(2)の結論は同じ:
- (1)
$\mathbf{w}$ の事前分布を$p(\mathbf{w}|\alpha)=\mathcal{N}(\mathbf{w}|\mathbf{0},\alpha^{-1}I)$ とおいてMAP推定する. - (2) L2ノルムで正則化した二乗和誤差関数
$\displaystyle E(\mathbf{w},\lambda)=\frac{1}{2}\sum_{n=1}^{N}(t_{n}-\mathbf{w}^{T}\boldsymbol{\phi}(\mathbf{x}))^{2} + \frac{\lambda}{2}\sum_{j=1}^{D}w_{j}^{2}$ を最小化する.- (1)は(2)で
$\displaystyle\lambda = \frac{\alpha}{\beta}$ とおいたものに帰着する.
- (1)は(2)で
- (1)
- 最適解は
$\displaystyle\mathbf{w}_{\mathrm{MAP}}=(\Phi^{\dagger}+\lambda I)\textsf{t}$ - 予測分布は $\displaystyle p(t|\textsf{t},\mathbf{x},\alpha,\beta)=\mathcal{N}(t|w_{\mathrm{ML}}^{T}\mathbf{x},\beta^{-1}{\mathrm{ML}}) = \mathcal{N}\left(t:\left|:(\Phi^{\dagger}\textsf{t})^{T}\mathbf{x}, \frac{1}{N}\sum{n=1}^{N}(t_{n}-(\Phi^{\dagger}\textsf{t})^{T}\mathbf{x})^{2}\right.\right)$
-
$y=W^{T}\boldsymbol{\phi}(\mathbf{x})$ とおいて,$W$ を最適化する.- 基底関数
$\boldsymbol{\phi}$ はあらかじめ決めておき, 動かさずに固定する.
- 基底関数
- 目標値
$t$ を決定論的に扱うとき,- 二乗和誤差関数
$\displaystyle E(W)=\frac{1}{2}\mathrm{Tr}{(XW-T)^{T}(XW-T)}$ を最小化する.
- 二乗和誤差関数