7.3 最適化・距離尺度(最小二乗法、KL情報量、マハラノビス距離、ユークリッド距離)

G検定

AIや機械学習では「誤差を最小化する」「データ同士の距離を測る」といった数学的な仕組みが欠かせません。
この節では、代表的な 最適化手法距離尺度 を整理します。


最小二乗法(Least Squares Method)

定義

観測値と予測値の差(誤差)の二乗和を最小化する方法。

\(\min_\theta \sum_{i=1}^{n} \bigl(y_i – f(x_i;\theta)\bigr)^2\)

特徴

  • 回帰分析の基本手法。
  • 誤差を二乗するため正負が打ち消し合わない。

応用例

  • 線形回帰(直線のあてはめ)。
  • 曲線近似。

👉 試験ポイント:「最小二乗法は誤差の二乗和を最小化する手法」。


KL情報量(Kullback–Leibler Divergence)

定義

2つの確率分布 \(P\) と \(Q\) の違いを測る指標。

\(D_{KL}(P||Q) = \sum_x P(x) \log \frac{P(x)}{Q(x)}\)

特徴

  • 距離ではなく「相対エントロピー」。
  • \(D_{KL}(P||Q) \geq 0\)、同じ分布のとき0。

応用例

  • 確率モデル間の比較。
  • 機械学習の損失関数(クロスエントロピーに関連)。

👉 試験ポイント:「KL情報量は分布間の差異を測る」。


ユークリッド距離(Euclidean Distance)

定義

2点間の直線距離。

\(d(x,y) = \sqrt{(x_1-y_1)^2 + (x_2-y_2)^2}\)

特徴

  • 最も直感的な距離尺度。
  • 高次元にも拡張可能。

応用例

  • k近傍法(k-NN)の類似度測定。
  • クラスタリング(k-means)。

👉 試験頻出:「ユークリッド距離は直線距離」。


マハラノビス距離(Mahalanobis Distance)

定義

データの分散や相関を考慮した距離。

\(d(x,y) = \sqrt{(x-y)^T \Sigma^{-1} (x-y)}\)

(\(\Sigma\) は共分散行列)

特徴

  • スケールが異なる特徴量や相関のある特徴量にも対応。
  • ユークリッド距離の一般化。

応用例

  • 外れ値検知。
  • 多変量解析。

👉 試験頻出:「マハラノビス距離は分散・相関を考慮した距離」。


まとめ

  • 最小二乗法:誤差の二乗和を最小化する。
  • KL情報量:確率分布の違いを測る。
  • ユークリッド距離:直線距離。
  • マハラノビス距離:分散・相関を考慮した距離。

出題チェック

  • 「最小二乗法は何を最小化する?」=誤差の二乗和
  • 「KL情報量は何を測る?」=分布間の差異
  • 「ユークリッド距離の特徴は?」=直線距離
  • 「マハラノビス距離の特徴は?」=分散・相関を考慮

練習問題(例題)

問題:データの分散や相関を考慮して距離を測定する方法はどれか?

  1. ユークリッド距離
  2. KL情報量
  3. マハラノビス距離
  4. 最小二乗法

👉 正解:3

タイトルとURLをコピーしました