5.9 モデルの軽量化（蒸留、量子化、エッジAI）

ディープラーニングモデルは年々巨大化し、性能は向上しましたが、同時に 計算資源・消費電力・推論時間 などの課題も深刻化しています。
これに対処するアプローチが モデルの軽量化（Model Compression / Model Optimization） です。
本節では代表的な技術である 知識蒸留・量子化・エッジAI を整理します。

知識蒸留（Knowledge Distillation）
量子化（Quantization）
エッジAI（Edge AI）
まとめ
出題傾向
練習問題（例題）

知識蒸留（Knowledge Distillation）

特徴

大規模モデル（Teacher Model）の知識を、小規模モデル（Student Model）に伝える手法。
出力確率分布（Soft Target）を利用して学習。

メリット

小さなモデルでも高精度を維持。
モバイル端末やエッジ環境で利用可能。

応用例

BERTの蒸留版：DistilBERT
大規模言語モデルの圧縮

👉 試験頻出：「知識蒸留は大規模モデルの知識を小規模モデルに移す手法」。

量子化（Quantization）

特徴

モデルのパラメータを32bit浮動小数点から8bitや16bitなど低精度に変換。
計算速度・メモリ効率が向上。

メリット

推論速度が向上。
消費電力を削減。
モバイル・IoTデバイスでの利用に適する。

課題

精度低下のリスク。
対策として「量子化対応学習（Quantization Aware Training）」がある。

👉 試験ポイント：「量子化は数値表現を低精度化し、計算効率を上げる」。

エッジAI（Edge AI）

定義

クラウドではなく スマホ・IoTデバイス・ロボットなどエッジ側でAIを実行する仕組み。

メリット

レイテンシ削減（リアルタイム処理）。
通信コスト削減。
プライバシー保護（データをクラウドに送らない）。

技術的基盤

軽量化モデル（蒸留・量子化）
専用ハードウェア（NPU, Edge TPU, Movidiusなど）

応用例

スマホの顔認識・音声認識
工場の異常検知
自動運転車

👉 試験頻出：「エッジAIは軽量化モデル＋専用チップでデバイス上で推論を行う」。

まとめ

知識蒸留：大規模モデルの知識を小規模モデルに移す。DistilBERTが代表例。
量子化：数値精度を落として高速化・省メモリ化。
エッジAI：軽量化モデルをエッジデバイスで動かす。

出題傾向

「知識蒸留の目的は？」＝小規模モデルに大規模モデルの知識を伝える
「量子化の効果は？」＝計算効率向上、メモリ削減
「エッジAIの利点は？」＝リアルタイム処理、プライバシー保護

練習問題（例題）

問題：モデルのパラメータを低精度化し、計算効率とメモリ効率を向上させる手法はどれか？

知識蒸留
量子化
Dropout
転移学習

👉 正解：2