ニューラルネットワークの学習において「どのように予測が正しいか/間違っているか」を数値化するのが 誤差関数(損失関数, Loss Function) です。
誤差関数は「教師データと予測値の差」を定量化し、学習の方向を決める重要な役割を果たします。
誤差関数の役割
- 予測の良し悪しを数値化
- 誤差逆伝播法で重み更新の方向を決める基準になる
- タスクに応じて最適な誤差関数を選ぶ必要がある
👉 試験ポイント:「回帰/分類/特殊タスク」で異なる誤差関数が用いられる。
回帰タスクで使われる誤差関数
平均二乗誤差(MSE: Mean Squared Error)
MSE = (1/n) Σ (yi - ŷi)^2
- 実際値と予測値の差の二乗を平均。
- 大きな誤差を強調する性質。
平均絶対誤差(MAE: Mean Absolute Error)
MAE = (1/n) Σ |yi - ŷi|
- 外れ値に頑健。
👉 G検定では「MSEは大きな誤差を強調、MAEは外れ値に強い」と問われやすい。
分類タスクで使われる誤差関数
クロスエントロピー誤差(Cross-Entropy Loss)
L = - Σ yi log(ŷi)
- 正解クラスの確率が高いほど損失が小さくなる。
- 多クラス分類(Softmaxと併用)で最も一般的。
👉 試験頻出:「分類タスクにおける代表的誤差関数は?」=クロスエントロピー。
情報理論に基づく誤差関数
KL情報量(Kullback-Leibler Divergence)
DKL(P || Q) = Σ P(x) log( P(x) / Q(x) )
- 分布 P と Q の違いを測る指標。
- 「予測分布Qが真の分布Pにどれだけ近いか」を評価。
- 生成モデル(VAEなど)で利用される。
👉 ポイント:KL情報量は「確率分布の距離」を測る。
特殊タスク向け誤差関数
Contrastive Loss(コントラスト損失)
- ペアデータ(類似 or 非類似)を学習する際に使われる。
- 類似ペアなら距離を小さく、非類似ペアなら距離を大きく。
- 例:顔認識、類似画像検索。
Triplet Loss
- Anchor(基準)・Positive(類似)・Negative(非類似)の3つを比較。
- 類似ペアと非類似ペアの距離関係を学習。
- 顔認証システム(FaceNetなど)で利用。
まとめ
- 回帰:MSE(大きな誤差を強調)、MAE(外れ値に強い)。
- 分類:クロスエントロピー(Softmaxと組み合わせ)。
- 生成モデル:KL情報量。
- 類似度学習:Contrastive Loss、Triplet Loss。
- 誤差関数は「タスク特性」に応じて選択される。
出題傾向
- 「分類問題でよく使われる誤差関数は?」=クロスエントロピー
- 「MSEとMAEの特徴の違い」
- 「KL情報量は何を測るか?」=分布間の距離
- 「Contrastive Lossの応用分野」=顔認識、類似検索
練習問題(例題)
問題:多クラス分類問題において最も一般的に利用される誤差関数はどれか?
- MSE
- クロスエントロピー
- KL情報量
- Contrastive Loss
👉 正解:2