教師なし学習(クラスタリング問題)の数理的な問題設定
教師なし学習の数学的な問題設定
教師なし学習の問題としては、2つの問題設定があります。
(ただし)という標本の集合が存在するとします。この集合の各要素について、は観測可能だが、それに対応するは観測できません。このような状況下で、を推定するというのが教師なし学習の1つ目の問題です。また、母集団に存在する未知のについても、それに対応するを予測するというのが2つ目の問題です。
1. クラスタリング問題
1.1 ハードクラスタリング
のときクラスタリングまたはハードクラスタリングといいます。ハードクラスタリングは、教師変数のない他クラス分類問題と言いかえることもできます。また、ハードクラスタリングは、と言いかえることもできます。(one-hot encoding, 1 of K 表記)
K-平均法
- 予測
各でクラスタ中心を定めて、各について、
と定めます。要は一番近いクラスタ中心に属するという意味です。
- 目的関数
とし、
EMアルゴリズム
STEP1 を適当に定めます。
STEP2 Eステップ
Eステップでは、のについての最小化をします。
STEP3 Mステップ
Mステップでは、のについての最小化をします。
STEP4 EステップとMステップを繰り返す
値が更新されなくなるまで、EステップとMステップを繰り返します。
1.2 ソフトクラスタリング
のときソフトクラスタリングといいます。はデータがクラスに属する割合と解釈されます。
ソフトK-平均法
- 予測
各でクラスタ中心を定めて、各について、
と定めます。統計力学に出てくるカノニカル分布みたいな形をしていますね。
ちゃんとプリント読まないときついかも
- 目的関数 K-平均法のminをsoftminで置き換えます。
とし、
EMアルゴリズム
STEP1 を適当に定めます。
STEP2 Eステップ
Eステップでは、のについての最小化をします。
STEP3 Mステップ
Mステップでは、のについての最小化をします。
STEP4 EステップとMステップを繰り返す
値が更新されなくなるまで、EステップとMステップを繰り返します。