機械学習の数理②(パラメーター推定) (書きかけ)

はじめに

授業で勉強したことをまとめていきます。 前回はこちら
slimelimestech.hatenablog.com

次回はこちら

目次

2. パラメーター推定

 \mathcal{X}:領域
 X \mathcal{X}上の確率変数
 n自然数
 \theta:実数値パラメータ
 \Theta:実パラメータ空間
 \mathcal{P = \{ p(X^n;\theta):\theta \in \Theta\}}パラメトリックな確率分布のクラス
 X^n = X_1,...,X_n:観測データ列
 x^n = x_1,...,x_n:観測データ列

問題設定:
与えられたx^nから、\thetaを推定する。

2.1 最尤推定

尤度関数
\mathcal{L}(\theta)=p(x^n;\theta)=\prod_{i=1}^n p(x_i;\theta)\thetaについて最大化する。

対数尤度関数 L(\theta) = log p(x^n;\theta)
\hat{\theta}=arg \max _{\theta \in \Theta} log p(x^n;\theta)最尤推定量という。(Maximum Likelihood Estimator)

最尤推定量はなぜ良いか

以下の定理が成り立つため
定理 1.1 最尤推定量の一致性
定理 1.2 最尤推定量の漸近正規性及び有効性

2.2 ベイズ推定

p(\theta)\thetaの事前確率
 x^n = x_1,...,x_n:観測データ列
p(\theta|x^n)\thetaの事前確率

定理1.3 ベイズの定理
 p(\theta|x^n) = \frac{p(\theta|x^n)p(\theta)}{\int_\Theta p(\theta';x^n) d\theta'}

 \hat{\theta} = \int_\Theta \theta p(\theta|x^n)d\thetaベイズ定量という。(Bayesian Estimator)

2.3 線型回帰

y \in \mathbb{R}:目的変数
x \in \mathbb{R}^d:説明変数
\theta \in \mathbb{R}^d:パラメータ
\epsilon 〜 \mathcal{N}(0, \sigma^2):誤差\epsilonは、平均0、分散\sigma正規分布に従う
線型回帰モデルとは以下のような関係のモデルである。
 y = \theta^T x + \epsilon

2.4 MAP推定

 \hat{\theta} = arg \max_ \theta p(\theta|x^n)をMAP推定量という。(Maximum A Posterori Estimator)

2.5 スパース正則化

LASSOの最適化アルゴリズムについて説明する。

2.6 勾配降下法

解析的に解けない場合の最適化手法

2.7 ロジスティクス回帰