はじめに

授業で勉強したことをまとめていきます。前回はこちら
slimelimestech.hatenablog.com

次回はこちら

2. パラメーター推定

$\mathcal{X}$ ：領域
$X$ ： $\mathcal{X}$ 上の確率変数
$n$ ：自然数
$\theta$ ：実数値パラメータ
$\Theta$ ：実パラメータ空間
$\mathcal{P = \{ p(X^n;\theta)：\theta \in \Theta\}}$ ：パラメトリックな確率分布のクラス
$X^n = X_1,...,X_n$ ：観測データ列
$x^n = x_1,...,x_n$ ：観測データ列

問題設定：
与えられた $x^n$ から、 $\theta$ を推定する。

2.1 最尤推定

尤度関数
$\mathcal{L}(\theta)=p(x^n;\theta)=\prod_{i=1}^n p(x_i;\theta)$ を $\theta$ について最大化する。

対数尤度関数 $L(\theta) = log p(x^n;\theta)$
$\hat{\theta}=arg \max _{\theta \in \Theta} log p(x^n;\theta)$ を最尤推定量という。(Maximum Likelihood Estimator)

最尤推定量はなぜ良いか

以下の定理が成り立つため
定理 1.1 最尤推定量の一致性
定理 1.2 最尤推定量の漸近正規性及び有効性

2.2 ベイズ推定

$p(\theta)$ ： $\theta$ の事前確率
$x^n = x_1,...,x_n$ ：観測データ列
$p(\theta|x^n)$ ： $\theta$ の事前確率

定理1.3 ベイズの定理
$p(\theta|x^n) = \frac{p(\theta|x^n)p(\theta)}{\int_\Theta p(\theta';x^n) d\theta'}$

$\hat{\theta} = \int_\Theta \theta p(\theta|x^n)d\theta$ をベイズ推定量という。(Bayesian Estimator)

2.3 線型回帰

$y \in \mathbb{R}$ ：目的変数
$x \in \mathbb{R}^d$ ：説明変数
$\theta \in \mathbb{R}^d$ ：パラメータ
$\epsilon 〜 \mathcal{N}(0, \sigma^2)$ ：誤差 $\epsilon$ は、平均0、分散 $\sigma$ の正規分布に従う
線型回帰モデルとは以下のような関係のモデルである。
$y = \theta^T x + \epsilon$